Ich versuche, eine Computersimulation des Pawlowschen Lernens zu finden. dh eine Aktion wie Speicheln als Reaktion auf einen Reiz wie das Läuten einer Glocke.
Bei den meisten neuronalen Netzwerkmodellen, die ich gesehen habe, scheint es eher um den Versuch zu gehen, Dinge wie Handschrift oder Sprache zu erkennen, als um das Stimulus-Response-Modell. Und sie berücksichtigen normalerweise nicht die zeitliche Natur des Pawlowschen Lernens. zB klingeln, etwas warten, Hundefutter geben.
Gibt es dazu Computersimulationen? (Haben sie einen Namen?) Gibt es ein verbundenes Neuronenmodell davon?
Im Allgemeinen suchen Sie nach einem biologisch plausiblen Modell des Verstärkungslernens und / oder der Konditionierung. Ich kenne insbesondere zwei Veröffentlichungen, die sich damit befassen.
Das erste ist ein biologisch plausibles Spiking Neuron Model of Fear Conditioning und das zweite ist ein Spiking Neural Integrator Model of the Adaptive Control of Action by the Medial Prefrontal Cortex . Beide verwenden das Neural Engineering Framework und eine Lernregel, um die Verbindungsgewichte zwischen Ensembles biologisch plausibler Spiking-Neuronen zu modifizieren. Diese Verbindungen werden modifiziert, um Assoziationen zwischen Stimuli und einer Aktion zu schaffen und zu zerstören. Im zweiten Artikel wird jedoch gezeigt, dass der Mechanismus auch Timing-Informationen lernen kann.
Ich würde das pawlowsche Lernen als eine Art hebbisches Lernen einstufen . Wo Ereignisse, die zusammen auftreten, sich gegenseitig positiv verstärken (anders als Reinforcement Learning).
Diese Idee wurde in Hopfield-Netzwerke und dann in ihre Nachkommen Boltzmann und eingeschränkte Boltzmann-Maschinen umgewandelt. Sie verwenden einen Algorithmus namens kontrastive Divergenz , der effektiv hebbisches Lernen ist. Es versucht, dass Ereignisse, die zusammen auftreten, stabilere Zustände erzeugen, und Ereignisse, die nicht zusammen auftreten, weniger stabil gemacht werden, sodass das Netzwerk bei einem Teilzustand von dem stabilen Zustand angezogen wird.
Wenn also eine Glocke läutet und Nahrung empfangen wird, wird das Netz lernen, dass dies ein (mehr) stabiler Zustand ist, und wenn/wenn nur die Glocke läutet, wird das Netz natürlich von dem Zustand Glocke + Nahrung angezogen, wie alle anderen Zustände sind weniger stabil.
(Leider verstehe ich kontrastive Divergenz nicht besonders gut, vielleicht ist es besser, es selbst nachzuschlagen).
Diese Arbeit führt zu unüberwachtem Lernen, Deep Learning und Auto-Encodern.
Wobei ich bei näherer Überlegung klarstellen sollte, dass dies derzeit nicht mit zeitlicher Differenz funktioniert. Ich weiß also nicht, ob ich die Frage wirklich beantwortet habe.
Ein echter Klassiker – das Configural-Cue-Modell – verwendet die Rescorla-Wagner-Regel, um Zusammenhänge zwischen Hinweisen und Ergebnissen zu lernen. Link1 Link2 Link3
Meiner Ansicht nach ist dies eines der unkompliziertesten (dh einfachsten) Konditionierungsmodelle, wahrscheinlich ein guter Ausgangspunkt für Sie.
Artem Kaznatcheev