Wie strukturiert das Gehirn visuelle 3D-Daten?

Adobe Illustrator hat über fünf Minuten (und zählen) gebraucht, um ein um 18° gedrehtes 2D-Vektorbild auf meinem Computer in 3D zu rendern. Und doch kann ich und fast jeder andere leicht das fast augenblicklich gedrehte Motiv visualisieren und das Objekt mit geringem Aufwand kontinuierlich in Echtzeit vor dem geistigen Auge drehen.

Drehender Flamingo

Ich frage nicht, wie das Gehirn Repräsentationen von Objekten speichert , da dies eindeutig zur Debatte steht. Aber wie strukturiert das Gehirn seine interne Repräsentation von visuellen 3D-Daten?

Es ist fast definitiv nicht in einem pixelbasierten Format, wie gezeigt werden kann, indem man einfach ein Objekt irgendeiner Art visualisiert und dann mental auf ein Detail zoomt und feststellt, dass das Bild seine Schärfe behält. Es ist wahrscheinlich auch nicht das Zerlegen von Objekten in geometrische Formen, denn zumindest stelle ich mir meine Freunde nicht als Strichmännchen vor. Es könnte ein Vektorformat sein , aber dann sollte es einfacher sein, komplexe Formen zu visualisieren, die mathematisch einfach sind, wie diese:

Komplexe, aber mathematisch einfache Form

Es scheint also, dass das Gehirn ein anderes Format verwendet. Wie funktioniert das nach bestem Wissen der modernen Kognition?

Unser visuelles Bild ist in 2D, ähnlich einer normalen Kamera, aber es gibt viele Faktoren, die uns die Welt als 3D interpretieren lassen. Dies sind unter anderem die Größe des Objekts (weiter entfernte Objekte sind normalerweise kleiner), die Anordnung des Objekts (ein Objekt befindet sich hinter etwas anderem) und die relative Bewegung (Objekte, die näher beieinander liegen, bewegen sich im 2D-Bereich schneller als weiter entfernte Objekte). Angesichts unserer vielen spezialisierten visuellen Bereiche (V1-V6 usw.) geschieht dies in den meisten Fällen unbewusst. Ps Die Tatsache, dass Sie Strichmännchen nicht bewusst verwenden, bedeutet nicht, dass Ihr Gehirn dies nicht tut.
@RobinKramer Ich frage nicht wirklich nach dem Sehen, die Frage ist, wie das Gehirn visuelle Daten speichert. Stell dir deinen besten Freund vor. Sie können ihn oder sie wahrscheinlich herumwirbeln, Arme, Beine und Kopf heben oder senken und anderweitig mit dieser Person Filme in Ihrem Kopf konstruieren. Diese Art des Erfassens von 3D-Objekten ist für Computer schwer zu erreichen, und doch können wir (und wahrscheinlich zumindest einige Säugetiere) dies auf natürliche, mühelose und effektive Weise sofort tun. Ohne auf den elektrochemischen Prozess eingehen zu müssen, durch den Objekte gespeichert werden (wenn Sie es nicht wirklich wollen), in welchem ​​"Format" sind diese Daten?
Nur weil Sie denken, dass Sie ein 3D-Objekt mental simulieren, heißt das nicht, dass das Objekt in Ihrem Kopf tatsächlich 3D ist. Das würde eine große Menge an Wahrnehmungsinformationen erfordern. Typischerweise basiert die Mehrheit der gespeicherten Informationen auf globalen Vorschriften und lokalen Vorschriften, die eine spezifischere Identifizierung ermöglichen. (globale Wahrnehmungsverzerrung) Da die visuellen Informationen, die Sie manipulieren, nicht strukturell zugänglich sind (wie beim Zeichnen), manipulieren Sie die Regeln, die Sie zuvor gespeichert haben (wie zum Identifizieren des Objekts erforderlich).
@Dog Die Vorstellung, dass visuelle Daten mental 2D sind, aber mit Regeln interpretiert werden, die an 3D gewöhnt sind, scheint der einfachen Erfahrung zu widersprechen. Es ist sehr einfach, sich ein Objekt vorzustellen und seine Form in drei Dimensionen zu beschreiben, aber es ist schwierig, seine Form in zwei Dimensionen aus einem bestimmten Winkel zu beschreiben (denken Sie an ein Auto, das in drei Dimensionen leicht zu visualisieren ist, in zwei Dimensionen schwer zu umreißen). Ich muss sagen, ich bin anderer Meinung
Die ultimative Antwort darauf wäre, dass es als (hochkomplexe) gewichtete Netzwerkstruktur gespeichert wird. Es tut mir leid, wenn diese Antwort enttäuschend ist, aber das ist wirklich die Antwort. Ich kann mehr darüber erklären, wie das Gehirn visuelle Informationen von der Netzhaut durch Merkmalserkennung und Top-Down-Feedback verarbeitet, aber ich bin mir nicht sicher, ob dies Ihre Frage beantworten wird.
Gute Frage! Ich denke, die Spekulation und das Mysterium darüber, wie wir dies tun, ist ein gutes Beispiel dafür, warum das menschliche Sehen/Bilder so ein schwieriges Problem für die Kognitionswissenschaft ist. Ein paar Punkte: (1) Selbstbeobachtung ist kein guter Beweis dafür, wie dies im Gehirn geschieht. Es fühlt sich für Sie nicht pixel- / formbasiert an, aber diese Mechanismen sind wahrscheinlich nicht offen für eine bewusste Selbstbeobachtung. (2) Die Art des „Formats“/der Darstellung ist eine Schlüsselfrage bei Modellen der Objekterkennung, daher möchten Sie vielleicht einen Blick auf die Arbeit von Tarr und Biederman und die Debatte zwischen „ansichtsabhängigen“ und „ansichtsunabhängigen“ Modellen werfen.
Eigentlich sollten Sie sich fragen, ob es empirische Beweise dafür gibt, dass Menschen die Dinge reibungslos drehen können, wie Sie vorschlagen. Es gibt einige klassische Abhandlungen zum Thema „mentale Rotation“, die Sie sich vielleicht dafür ansehen möchten. Ich bezweifle, dass wir so gut sind, wie Sie denken (ich habe keine Ahnung, wie der Hinterkopf meines Freundes aussieht).

Antworten (1)

Diese Frage kann nicht in der Form beantwortet werden, in der Sie sie gestellt haben, sowohl wegen der Grenzen der aktuellen neurowissenschaftlichen Theorien und Methoden, wenn es darum geht, die Strukturen komplexer neuronaler Repräsentationen zu bestimmen (obwohl wir in einigen Fällen wie Ortszellen und Gitterzellen) und weil neuronale Repräsentationen nicht wirklich analog zu unseren umgangssprachlichen Konzepten einfacher Abbildungen von Zahlen auf Bilder sind (z. B. Pixel, Vektor, Wavelet usw. Grundlagen für die digitale Bilddarstellung).

Ich möchte Sie ermutigen, nicht nur in Bezug auf diese Darstellungsformate zu denken, die von Computerarchitekturen im Von-Neumann-Stil (dh normalen Computern) mit getrennten Verarbeitungs- und digitalen Speichersystemen bevorzugt werden, sondern in Bezug auf einen neuronalen Computer mit verteilter Berechnung und Speicher. Neurowissenschaftler denken typischerweise, dass die neuronale Repräsentation in der visuellen Wahrnehmung in einer Reihe von Stadien zunehmender Abstraktion auftritt. Auf der Netzhaut wird das Bild grob in Form von Pixeln dargestellt, aber es ist wirklich nur eine Reihe von Fotosensoren und daran befestigten Neuronen, die aktiviert werden, wenn Licht an verschiedenen Stellen mit unterschiedlichen Frequenzen und Amplituden auf die Netzhaut trifft. In V1 oder primärem visuellen Kortex, erfolgt die Darstellung im Hinblick auf das, was man sich als "Randdetektoren" vorstellen kann. In V2 werden die Zellen auf eine Vielzahl von etwas komplexeren Eigenschaften abgestimmt, wie z. B. Orientierung, Raumfrequenz, Farbe und binokulare Disparität (eine wichtige Information für die 3D-Wahrnehmung). Wenn Sie durch V3, V4, V5 aufsteigen , und V6 werden die Darstellungen immer komplexer, bis sie Informationen über die Struktur des zugrunde liegenden Konzepts selbst enthalten.

Die Dreidimensionalität tritt erst ein, wenn die visuellen Informationen von beiden Augen mit Top-Down-Informationen darüber kombiniert werden, wie die Dinge in der Welt zu sein scheinen (die auch von anderen Sinnen und Erfahrungen stammen), um auf die wahrscheinliche Form zu schließen das Objekt. Es ist unklar, ob es einen Ort im Gehirn gibt, an dem ein Bild explizit als 3D-Modell eines visuellen Objekts dargestellt wird. Wahrscheinlicher sind die rohen Wahrnehmungsdaten wie Farben und Muster in einem Bereich dargestellt und mit der stärker objektzentrischen strukturellen Repräsentation in einem anderen Bereich verbunden, und diese Zuordnung bewirkt die Co-Aktivierung aller Neuronen, die für die Wahrnehmung des Objekts in relevant sind Es ist eine dreidimensionale Form.

Wir können uns dies auch im Sinne der zeitgenössischen Theorie der enaktiven Wahrnehmung vorstellen, die besagt, dass das Gehirn Informationen in Form von Kontingenzen zwischen Zustand, Handlung und Beobachtung darstellt. In dieser Theorie ist überhaupt kein „Bild“ vorhanden, sondern nur eine Reihe von neuronalen Aktivierungen, die mit früheren Erfahrungen korrelieren (wobei die Korrelationen in Form von assoziativen Verbindungen zwischen Neuronen gespeichert werden, die einen kausalen Aktivierungspfad schaffen, entlang dem „Informationen“ reisen ) und Beziehungen zwischen möglichen Aktionen (entweder motorische Aktionen auf niedriger Ebene der Netzhaut oder anderer Muskeln,

Wenn Sie mehr lesen möchten, sollten diese Quellen ein guter Anfang sein: verteiltes neuronales Gedächtnis , verteilte neuronale Repräsentation eines Prozesses höherer Ordnung , Wahrnehmung als Assoziationen zwischen Handlungen und Beobachtungen

Es gibt auch einige Quellen, die direkte experimentelle Beweise für Ihre Frage bieten, aber keine so große konzeptionelle Einführung in die neuronale Berechnung und Darstellung bieten. Siehe "Neurale Berechnungen, die der Tiefenwahrnehmung zugrunde liegen" , Binokulare Tiefenwahrnehmung und die Großhirnrinde als Anfang.

Ihre Frage bezieht sich auch auf das Drehen eines Objekts "vor dem geistigen Auge". Es gibt auch eine sehr umfangreiche Forschung zu diesem Phänomen, das als "mentale Rotation" bezeichnet wird. Der Wikipedia-Artikel ist ein guter Anfang, aber es gibt noch viel mehr über dieses interessante Phänomen zu sagen, also zögern Sie nicht, eine verwandte Frage zu stellen, wenn Sie neugierig sind!

Das ist eine fantastische Antwort, und ich mag besonders die enaktive Wahrnehmungsinterpretation, die zum Beispiel implizieren würde, dass die visuellen Daten, die einem Menschen zugeordnet sind, eine Kombination aus 2D-Daten, 3D-Daten und allgemeinen Informationen über die Formen von Menschen sind allgemein, die verwendet werden kann, um ein grobes (und doch ziemlich genaues) mentales Modell von Strukturen zu erstellen, die nicht vollständig in 3D-Visuals gespeichert sind, wie man naiv denken würde. Die Links sind auch ganz ausgezeichnet. Fühlen Sie sich frei, weitere hinzuzufügen!
Danke dir! Ich weiß das Feedback zu schätzen und freue mich, zu Ihren Gedanken dazu beitragen zu können. Möglicherweise schreibe ich in naher Zukunft einen Blog-Beitrag dieser Art. Ich werde dich verlinken, wenn und wann ich es tue.
Anscheinend warte ich immer noch darauf, dass die Wissenschaft aufholt :) Hast du jemals diesen Blogbeitrag geschrieben?