Gibt es ein neuronales Netzwerkmodell des Pawlowschen Lernens?

Ich versuche, eine Computersimulation des Pawlowschen Lernens zu finden. dh eine Aktion wie Speicheln als Reaktion auf einen Reiz wie das Läuten einer Glocke.

Bei den meisten neuronalen Netzwerkmodellen, die ich gesehen habe, scheint es eher um den Versuch zu gehen, Dinge wie Handschrift oder Sprache zu erkennen, als um das Stimulus-Response-Modell. Und sie berücksichtigen normalerweise nicht die zeitliche Natur des Pawlowschen Lernens. zB klingeln, etwas warten, Hundefutter geben.

Gibt es dazu Computersimulationen? (Haben sie einen Namen?) Gibt es ein verbundenes Neuronenmodell davon?

Sie könnten an dieser Frage zu den Verfeinerungen des Rascorla-Wagner-Modells der klassischen Konditionierung interessiert sein , das, wie ich höre, durch zeitliches Differenzlernen bereitgestellt wird . TD-Lernen hat verschiedene Implementierungen in Neuro, und das wären dann auch Implementierungen des Pawlowschen Lernens.

Antworten (3)

Im Allgemeinen suchen Sie nach einem biologisch plausiblen Modell des Verstärkungslernens und / oder der Konditionierung. Ich kenne insbesondere zwei Veröffentlichungen, die sich damit befassen.

Das erste ist ein biologisch plausibles Spiking Neuron Model of Fear Conditioning und das zweite ist ein Spiking Neural Integrator Model of the Adaptive Control of Action by the Medial Prefrontal Cortex . Beide verwenden das Neural Engineering Framework und eine Lernregel, um die Verbindungsgewichte zwischen Ensembles biologisch plausibler Spiking-Neuronen zu modifizieren. Diese Verbindungen werden modifiziert, um Assoziationen zwischen Stimuli und einer Aktion zu schaffen und zu zerstören. Im zweiten Artikel wird jedoch gezeigt, dass der Mechanismus auch Timing-Informationen lernen kann.

Ich würde das pawlowsche Lernen als eine Art hebbisches Lernen einstufen . Wo Ereignisse, die zusammen auftreten, sich gegenseitig positiv verstärken (anders als Reinforcement Learning).

Diese Idee wurde in Hopfield-Netzwerke und dann in ihre Nachkommen Boltzmann und eingeschränkte Boltzmann-Maschinen umgewandelt. Sie verwenden einen Algorithmus namens kontrastive Divergenz , der effektiv hebbisches Lernen ist. Es versucht, dass Ereignisse, die zusammen auftreten, stabilere Zustände erzeugen, und Ereignisse, die nicht zusammen auftreten, weniger stabil gemacht werden, sodass das Netzwerk bei einem Teilzustand von dem stabilen Zustand angezogen wird.

Wenn also eine Glocke läutet und Nahrung empfangen wird, wird das Netz lernen, dass dies ein (mehr) stabiler Zustand ist, und wenn/wenn nur die Glocke läutet, wird das Netz natürlich von dem Zustand Glocke + Nahrung angezogen, wie alle anderen Zustände sind weniger stabil.

(Leider verstehe ich kontrastive Divergenz nicht besonders gut, vielleicht ist es besser, es selbst nachzuschlagen).

Diese Arbeit führt zu unüberwachtem Lernen, Deep Learning und Auto-Encodern.

Wobei ich bei näherer Überlegung klarstellen sollte, dass dies derzeit nicht mit zeitlicher Differenz funktioniert. Ich weiß also nicht, ob ich die Frage wirklich beantwortet habe.

Nur um das klarzustellen, die beiden Artikel, die ich verlinkt habe, verwenden auch Hebbian-Lernen, wie es von der Prescribed Error Sensitivity (PES) -Lernregel erfasst wird .
Okay, mein Fehler. Ich habe nicht in die Papiere geschaut. Ich werde meine Antwort bearbeiten

Ein echter Klassiker – das Configural-Cue-Modell – verwendet die Rescorla-Wagner-Regel, um Zusammenhänge zwischen Hinweisen und Ergebnissen zu lernen. Link1 Link2 Link3

Meiner Ansicht nach ist dies eines der unkompliziertesten (dh einfachsten) Konditionierungsmodelle, wahrscheinlich ein guter Ausgangspunkt für Sie.