„Modellfreies“ Lernen beim Menschen

Beim Reinforcement Learning wird stark zwischen modellbasierten und modellfreien Lernalgorithmen unterschieden, wobei modellfreie Methoden keine expliziten Informationen über die Dynamik der Umgebung verwenden.

Es scheint, als hätte diese Unterscheidung eine Entsprechung im menschlichen Lernen, aber es fällt mir sehr schwer, eine Erwähnung davon zu finden. Vielleicht würde es Konditionierung gegenüber eher kognitiven Formen des Lernens sein? Ich wäre überglücklich, wenn jemand einen Artikel finden könnte, der den Begriff „modellfrei“ verwendet, um sich auf einen Aspekt des menschlichen Lernens zu beziehen, oder mich einfach davon überzeugen könnte, dass der Begriff das richtige menschliche Analogon ist.

Existiert Forschung zum menschlichen Lernen mit einer modellfreien/modellbasierten Unterscheidung?

Benutzt du Google? Die Google-Stipendium-Suche nach „model free Reinforcement Learning“ bringt als ersten Treffer – vor allem anderen – eine kognitive neurowissenschaftliche Studie mit über 103 Zitaten. Es gibt tatsächlich eine sich entwickelnde Literatur zu diesem Thema, und der passende Begriff ist in der Tat "modellfrei".
@CHCH bezieht sich auf diesen Artikel , der für mich auch das erste Ergebnis ist. Da dies nicht Ihre erste Frage ist, bin ich enttäuscht über den Mangel an ersten Recherchen. Mir ist auch nicht klar, was Sie hier zu fragen versuchen. Obwohl Sie einige lustige Punkte ansprechen, bin ich mir nicht sicher, ob dies eine Frage ist, und stimme dafür, als NARQ zu schließen.
Tut mir leid wegen des Google-Fehlschlags – das war eine Frage, die ich vor ein paar Jahren wiederentdeckt habe. Ich hätte vor dem Posten neu googeln sollen, aber mir war nicht klar, dass sich in ein paar Jahren etwas geändert haben würde. Sorry für das Missgeschick. Ich verstehe jedoch nicht, dass dies keine Frage ist. Welcher Teil könnte eine Umformulierung gebrauchen?
Es ist eine Frage, und an ihrer Wurzel ist sie sehr interessant, aber an diesem Punkt ist sie sehr weit gefasst. Ich möchte für niemanden sprechen, aber ich denke, die anderen versuchen zu sagen, dass wir jetzt, da Sie die Terminologie kennen, diese spezielle Frage "beantwortet" haben. Wenn Sie also diese Informationen verwenden, um die Frage spezifischer zu stellen, was Sie wissen wollen, es wird stärker sein. FWIW, ich freue mich, Sie wiederzusehen, da ich denke, dass Sie großartige/interessante Fragen stellen, diese braucht nur ein wenig Feinabstimmung und Spezifität.
Danke Chuck! Ich stimme zu, dass die Frage in der aktuellen Form über den Artikel von CHCH beantwortet wird. Mögliche nächste Schritte: 1. Löschen Sie die Frage und warten Sie, bis die unvermeidliche Folgefrage gestellt wird. 2. Ich könnte es Community-Wiki machen und dann mit einem Klappentext aus dem Artikel antworten (es sei denn, CHCH möchte dies für die Anerkennung tun). leicht beantwortet. Ich würde Option 2 bevorzugen, aber ich dachte, ich würde fragen, da die Community vielleicht ein Verfahren hat, auf das sich die Leute geeinigt haben.
Beantworten Sie diese am besten selbst und vertiefen Sie Ihre Antwort, während Sie sich die jetzt gefundenen Google-Treffer durchlesen. Es ist eine echte Frage, ich ziehe es vor, sie nicht zu schließen. Beim nächsten Mal einfach besser googlen. ;p
Mich würde vor allem eine Antwort für die Laien unter uns interessieren!

Antworten (1)

Gemäß den Kommentaren zu der Frage gibt es Humanforschung, die diese Unterscheidung beobachtet. CHCH spielt möglicherweise auf einen Artikel von Gläscher, Daw, Dayan und O'Doherty (2010) an, der den Unterschied zwischen modellfreiem Lernen und modellbasiertem Lernen prägnant definiert:

Reinforcement Learning (RL) nutzt sequentielle Erfahrungen mit Situationen („Zuständen“) und Ergebnissen, um Handlungen zu bewerten. Während modellfreies RL diese Erfahrung direkt in Form eines Belohnungsvorhersagefehlers (RPE) verwendet, verwendet modellbasiertes RL sie indirekt, indem es ein Modell des Zustandsübergangs und der Ergebnisstruktur der Umgebung erstellt und Aktionen durch Suche danach bewertet Modell.

Gläsert al. (2010) berichten fMRI-Beweise für neuronale Aktivität, die mit modellbasiertem Lernen im menschlichen intraparietalen Sulcus und lateralen präfrontalen Kortex vereinbar ist, und für modellfreies Lernen im ventralen Striatum. Sie schließen:

Dieser Befund unterstützt die Existenz von zwei einzigartigen Formen von Lernsignalen beim Menschen, die die Grundlage für unterschiedliche Rechenstrategien zur Verhaltenssteuerung bilden können.

Verweise

  • Gläscher, J., Daw, N., Dayan, P., & O'Doherty, JP (2010). Zustände versus Belohnungen: dissoziierbare neuronale Vorhersagefehlersignale, die modellbasiertem und modellfreiem bestärkendem Lernen zugrunde liegen. Neuron, 66(4), 585-595.