Ventraler Strompfad und Architektur, vorgeschlagen von Poggios Gruppe

Können Sie mir bitte eine sehr kurze Erklärung zu allen Funktionen in der ventralen Stromarchitektur geben, die in dieser Abbildung zusammengefasst sind:Geben Sie hier die Bildbeschreibung ein

Diese Zahl stammt aus Serre et al.'s Eine quantitative Theorie der unmittelbaren visuellen Erkennung . Prog Brain Res. 2007.

Ich habe mehrere Artikel über dieses Modell gelesen, verstehe aber immer noch nicht das grundlegende Ziel, insbesondere hinter den beiden Operationen (Gauß-ähnliche und max-ähnliche Operationen). Kann mir also bitte jemand den ventralen Stromweg im Detail erklären ( von V1-V2-V4-IT-PFC) einschließlich der beiden Operationen in diesem Modell.

Zum Beispiel: Ich verstehe nicht, wie die Zellen in S1 aufgebaut sind ...

Der Titel ist irreführend. Dies ist nur EIN Modell der ventralen Stromverarbeitung unter vielen Möglichkeiten. Können Sie genauer sagen, welche Referenzen Sie gelesen haben? Sieht aus wie eine konvolutionelle Deep-Learning-Architektur, aber Sie müssen uns mehr erzählen.
danke für Ihre Antwort. Können Sie mir im Detail sagen, was auf diesem Bild passiert ist? (in S1, C1 usw.) . Vielen Dank im Voraus.
Das Bild sagt nicht viel aus. Es scheint, als würde es abwechselnd lokale lineare Merkmale finden und dann dieselben Merkmale über den Raum hinweg aggregieren. Sie müssen uns zeigen, woher Sie das Bild haben, und ob Sie auch die Gleichungen aufschreiben könnten, die helfen würden. Nicht genügend Informationen aus dem Bild!
Ich habe mein Bild bearbeitet. Ich brauche nur das Konzept
wo hast du das bild her?
in meiner Frage oben
Ich denke, @Memming bittet Sie, die Quelle des Bildes zu nennen. Woher haben Sie das heruntergeladen?
Ich habe Ihre Frage bearbeitet, um die richtigen Referenzen einzufügen. Ich hoffe, Sie sind mit meinen Änderungen einverstanden.

Antworten (1)

Dies ist eine typische Berechnungsarchitektur, die als Modell für den ventralen Strom der visuellen Verarbeitung bei Primaten vorgeschlagen wird . Es hat eine lange Geschichte (z. B. Neocognitoron von Fukushima war 1980 ) und immer noch weit verbreitet in maschinellem Lernen (z. B. Deep Learning ) und Neurowissenschaften.

Neokognitron

Es wird durch die Organisation von V1 einfachen Zellen und komplexen Zellen motiviert. Einfache Zellen in V1 können ungefähr als Kantendetektoren an einer bestimmten Stelle der Netzhaut angesehen werden. Aus diesem Grund werden sie in der von Ihnen zitierten Abbildung als Kreis mit einem Balken dargestellt (ein Cartoon-Empfangsfeld). Die einfachen Zellen können nur sehr lokal Dinge erkennen, dh wenn die Kante an einer anderen Stelle in Ihrem Sichtfeld erscheint, reagiert sie nicht.

Mathematisch können Sie sich einen räumlichen Filter vorstellen, der eine Kante (z. B. orientiertes Gabor-Patch) erkennt, die mit Ihrem Netzhautbild multipliziert und summiert wird. Zum Beispiel erkennt der unten stehende Filter eine Übereinstimmung mit einem 45-Grad-Balken, der auf dem Bereich mit heißen Farben ausgerichtet ist, hat aber weniger Aktivität, wenn der Balken aus der spezifischen Position verschoben wird.

orientierten Gabor-Patch

Andererseits sind die komplexen Zellen in V1 immer noch ein Kantendetektor, weisen aber eine gewisse Ortsinvarianz auf. Mit anderen Worten, wenn die Kante leicht verschoben ist, scheint sich die Reaktion komplexer Zellen nicht zu ändern. Es wird angenommen, dass dies darauf zurückzuführen ist, dass komplexe Zellen aus mehreren einfachen Zellen mit der gleichen Ausrichtung ziehen. Dies ist, was Sie in Ihrer Abbildung sehen, wo eine einzelne komplexe Zelle Informationen aus einfachen Zellen mit derselben Ausrichtung, aber an unterschiedlichen Orten, abruft.

Mathematisch kann eine Soft-Max-Operation oder eine Max-Operation über die einfachen Zellenausgänge zu einem guten komplexen Zellenmodell führen. Aber es ist nicht auf solche Operationen beschränkt. Tatsächlich werden auch quadratische oder andere nichtlineare Modelle in der Computational Neuroscience häufig verwendet.

Die vollständige Hierarchie für den ventralen Strom wird dann einfach durch wiederholtes Erweitern unter Verwendung der Simple-Cell-Complex-Cell-Analogie erhalten. Für jeden Stapel extrahiert die einfache Zellschicht ein lokales Merkmal (durch Berechnung der Ausgabe der komplexen Zelle der vorherigen Schicht), und die komplexe Zellschicht macht sie räumlich unveränderlich. Von Kanten in V1 kann man Ecken auf der nächsten Ebene erhalten, dann komplexe Konturen und den ganzen Weg bis zu Objekten. So geht zumindest die Geschichte.

Ich weiß nicht, wie ich Ihnen für diese Antwort danken soll. Ich weiß es wirklich sehr zu schätzen ... Aber ich verstehe immer noch einige Details nicht, ich werde Ihnen meine Meinung im zweiten Kommentar sagen.
Ich weiß, dass wir im Bereich v1 einfache und komplexe Zellen haben. Jede einfache Zelle erhält einige Eingaben vom Lateral Geniculate Nucleus (LGN). Diese Eingaben werden mit einer glockenförmigen Stimmung (Gauß-ähnliche Stimmung) mit der bevorzugten Ausrichtung kombiniert. Und alles, was wir wissen, dass jede einfache Zelle auf einen bestimmten ausgerichteten Balken reagieren kann (im Fall einer Gauß-ähnlichen Abstimmung muss die Reaktion der Zelle optimal sein??, weil wir eine Abstimmung mit der bevorzugten Ausrichtung des Empfangsfelds von vornehmen die Zelle ?).
Wenn wir jedoch ein solches Bild in Betracht ziehen, können Sie mir bitte im Detail erklären, was passiert, um die abgestimmten einfachen Zellen in v1 zu erhalten? Mit anderen Worten, und im Falle des betrachteten Bildes, was meinen wir mit den Eingängen einer so einfachen Zelle? Gibt es eine Segmentierung des Bildes vor dem Tuning-Vorgang? Ich habe das Phänomen nicht verstanden ... gibt es eine Faltung des Bildes mit einem bestimmten Filter, um das Bild in Form von Balken zu erhalten? Bitte, ich brauche Ihre geschätzte Hilfe :) und vielen, vielen Dank.
@Liszt Gern geschehen. Die Orientierungsabstimmungskurve kann als Folge des LN-Modells betrachtet werden. Wenn Sie dies in einer separaten Frage stellen, könnte ich die Gleichungen für Sie aufschreiben.
@Liszt Tatsächlich hätte die Stimmkurve eine Kosinusform, nicht genau Gaussian oder von Meises ... aber sie sehen sehr ähnlich aus. Dies ergibt sich aus der Beziehung zwischen Skalarprodukt und Kosinus.
Können Sie mir für den ersten Schritt (Tuning der einfachen Zellen in v1) ein Beispiel geben, das detailliert und Schritt für Schritt den Vorgang dieses Tunings beinhalten kann, um die einfachen Zellen (die S1-Schicht) zu erhalten? Können Sie mir bitte dieses Beispiel in einem bestimmten Bild geben, das Sie auswählen ... Ich würde mich sehr über Ihre Antwort freuen !! :) Wenn ja, setzen Sie Ihr Beispiel bitte in eine zweite Antwort :) Sie müssen keine Berechnungen durchführen, Sie können mir nur ein kurzes Beispiel geben (Cartoon-Schema).
@Liszt Ich schlage vor, Sie stellen eine völlig separate Frage. Jede Frage sollte nur eine Frage enthalten. So funktioniert SE. :)
ahh Entschuldigung, also kann ich auf dieser Seite eine weitere Frage stellen, und können Sie mir antworten (um mir ein Beispiel zu geben)? :):)
@Liszt Ja, ich werde deine Frage beantworten. (es sei denn, jemand anderes tut es) :P
Lieber Memming, können Sie mir erklären, wie der euklidische Abstand in der S2-Schicht zwischen einem Patch X der Größe nxn (aber enthält nxnx4 C1-Einheiten) und einem gespeicherten Prototyp berechnet wird? wie muss das Ergebnis ein S2-Image sein? bitte ich brauche deine hilfe :) danke