Ist die Plastizität des Gehirns so, dass wir uns selbst beibringen können, mit unseren Ohren zu sehen?

Ich beende das Schreiben eines Codes, der ein Foto (eventuell ein Video) analysiert und alle RGB-Informationen verwendet, um eine Audiodarstellung zu synthetisieren. Ich frage mich, ob eine typische Person über genügend neuronale Plastizität verfügt, um zu lernen, wie man sich dieses Audio anhört, um ein Bild im Allgemeinen zu verstehen. Ich suche nicht nach Perfektion. Wenn die Person eine gute Sicht hat, tut sie gut daran, Zeit damit zu verbringen, solche synthetisierten Audiodaten zu hören, während sie gleichzeitig die Realität betrachtet, um etwas Training zu geben, um ihre Interpretationsfähigkeiten zu verbessern. Sobald sie trainiert sind, können sie das Sehvermögen mit seinem akustischen Äquivalent erweitern oder ersetzen.

Wie plastisch ist unser audiovisuelles Gehirn? Gibt es Hoffnung, dass das funktioniert?

PS. Sobald es funktioniert, werde ich dieses Q aktualisieren


Für diejenigen, die sich über die Details wundern: Ich durchquere das Bild mit einer Hilbert-Kurve, die dazu neigt, die räumlichen Beziehungen zwischen den Pixeln beizubehalten, um das erneute Training bei einer Änderung der Pixelauflösung zu minimieren. Dadurch wird das 2D-Foto zu einer 1D-Linie abgeflacht, die von links nach rechts mit Punkten bestreut ist, die die jeweiligen Pixelwerte speichern (in erster Näherung kollabiere ich RGB in Graustufen 0,21 R + 0,72 G + 0,07 B).

... um die Audiodarstellung zu erstellen, besuche ich jede Pixelposition auf dieser Linie und führe einen Audiofrequenzoszillator pro Pixel mit einer eindeutigen Frequenz ein, sodass das Anfangspixel ganz links die niedrigste Frequenz in unserem Bereich (z. B. 200 Hertz) erhält nach oben, bis die Oszillatorfrequenz am äußersten rechten Pixel die höchste Frequenz darstellt (z. B. 10 kHz) ... der Graustufenwert steuert die Lautstärke des Oszillators dieses Pixels

... weitere Details unter: Isomorphismus zwischen Video und Audio https://www.youtube.com/watch?v=DuiryHHTrjU

Das Schöne an diesem Ansatz ist, dass er sich dazu eignet, diese Transformation umgekehrt durchzuführen (eine Bijektion) – von Audio zu Video können wir eine Fourier-Analyse (FFT) von Audio verwenden, das in Pixel abgebildet wird – dann wieder zurück zu Audio, spülen und wiederholen ...

Bitte senden Sie einige Sounds für die gemappten Bilder!!!

Antworten (2)

Kurze Antwort
Ja, wir können mit unseren Ohren sehen.

Hintergrund
Bach-y-Rita sagte bekanntlich „ Wir sehen mit unserem Gehirn, nicht mit unseren Augen “. Bach-y-Rita arbeitete jahrzehntelang an sensorischer Substitution . Sensorische Substitutionsansätze zielen im Allgemeinen darauf ab, einen verlorenen Sinn zu ersetzen, indem Informationen, die normalerweise von diesem Sinn erfasst werden, auf einen anderen, noch funktionsfähigen umgeleitet werden.

Bach-y-Rita konzentrierte sich darauf, das Sehen durch taktile Informationen zu ersetzen. Sein Tactile Vision Substitution System (TVSS) erfasste Kamerabilder und übersetzte sie in taktile Bilder, die auf den Rücken blinder Probanden projiziert wurden. Seine jahrzehntelange Forschung gipfelte schließlich in dem kommerziell erhältlichen BrainPort- Gerät (Stronks, 2016) .

Es wurden auch Vision-to-Auditory-Substitutionsgeräte entwickelt, unter anderem vor allem das vOICe von Peter Meijer und das PSVA-Gerät ( Prosthesis-Substituting-Vision-by-Audition) . Das vOICe übersetzt Bilder in Klänge, indem es ihre x-Achse in den Zeitbereich und ihre y-Achse in den Frequenzbereich (Meijer, 1992) neu abbildet . Diese „Image-Sweepline“-Technik wurde anschließend im EyeMusic- Gerät zur sensorischen Substitution eingesetzt (Abboud et al ., 2014).. Der PSVA verwendet eine Pixel-für-Pixel-Akustikfrequenztransformation, wobei die vertikale Position als Tonhöhe und die horizontale Position als binaurale Intensität und Phasendifferenzen und Helligkeit in Lautstärke codiert wird (Capelle et al. , 1998 ) .

Peter Meijer bezeichnet die vOICe als Erzeugung von „Klanglandschaften“, ähnlich wie der Ansatz, den Sie beschreiben. Ich ermutige Sie ernsthaft, sich mit ihm in Verbindung zu setzen, er ist ein sehr netter Kerl und offen für Austausch.

Wie auch immer, um zu Ihrer Frage zu kommen - können wir mit unseren Ohren sehen ? Ja wir können. Mehrere Studien haben gezeigt, dass Klänge erfolgreich verwendet werden können, um visuelle Aufgaben auszuführen, einschließlich Lokalisierung (De Volder et al., 1999) , Mustererkennung ( Arno et al., 2001a , 2001b ) und Tiefenwahrnehmung (Renier und DeVolder, 2010). .

Mehrere Studien haben gezeigt, dass das sehbehinderte Gehirn in der Lage ist, auditive Empfindungen in visuelle Äquivalente umzuleiten, indem es diese Informationen an den deafferentierten visuellen Kortex bei Blinden umleitet (Übersicht zB in Poirier et al. , 2007 ) . Dies wird als modalübergreifende Plastizität des Gehirns bezeichnet .

Die Lernkurve ist jedoch ziemlich steil, da viel Übung erforderlich ist, um nützliche Informationen aus visuellen Informationen zu erhalten, die durch Ton codiert sind (Stronks et al , 2015) . Darüber hinaus ist das wahrscheinlich größte Problem bei der Analyse von Klanglandschaften die visuelle Unordnung. Während das visuelle System sehr gut in der Lage ist, Bildstörungen herauszufiltern und die nützlichen Informationen zu extrahieren, verwandeln Soundscapes unweigerlich jedes irrelevante Objekt in der Szene in einen entsprechenden Sound. Visuelle Front-End-Verarbeitungstechniken sind wahrscheinlich der Schlüssel, um ein auditives visuelles Ersatzgerät in ein praktisch machbares Gerät für Blinde oder Sehende zu verwandeln.

Der visuelle Kortex wird bei Blinden für auditive Aufgaben rekrutiert, nicht jedoch bei Sehenden. Ich neige jedoch dazu zu glauben, dass es die Übung und nicht die visuelle Entbehrung an sich ist , die die Leistung mit sensorischen Substitutionsansätzen im Allgemeinen bestimmt (Stronks et al ., 2015) .

Referenzen
- Abboud et al ., Rest Neurol Neurosci (2014); 32 : 247–57
Arno et al ., Neuroimage (2001a); 13 (4): 632–45
Arno et al ., App Cog Psych (2001b); 15 (5): 509–19
Capelle et al ., IEEE TransBiomed Eng (1998); 45 (10): 1279–93
DeVolder et al ., Brain Res (1999); 826 (1): 128–34
- Meijer,IEEETransBiomed Eng (1992); 39 : 112–21
Poirier et al ., Neurosci Biobehav Rev (2007); 31 (7): 1064–70
- Renier und De Volder, J Integr Neurosci (2010); 4 (4): 489
Stronks et al ., Brain Res (2015); 1624 : 140–52
Stronks et al ., Expert Rev Med Dev (2016); 13 (10): 919-31

Wenn viel Übung erforderlich ist, um nützliche Informationen zu erhalten, dann ist die Lernkurve ziemlich flach und nicht steil (diese Steigerung des Lernens tritt nicht auf, bis Sie sich weit entlang der x-Achse bewegt und viel investiert haben üben in). Aber das ist trotzdem eine wunderbare Antwort auf ein sehr interessantes Thema :)
@DeNovo ja, die Bedeutung einer steilen Lernkurve wird oft so verwendet, wie sie hier verwendet wird, aber ehrlich gesagt habe ich mich immer gefragt, warum sie oft in dem Sinne verwendet wird, dass „viel Lernen erforderlich ist“. Ich werde daran denken, meine Antwort zu verbessern. Vielen Dank

Ich möchte die großartige Antwort von AliceD mit meinem eigenen Experiment ergänzen. Ich möchte dies hinzufügen, weil die Ergebnisse, obwohl intellektuell natürlich, intuitiv faszinierend waren, und weil meine Stichprobengröße winzig ist (sprich: N = 1), und ich gerne andere dazu bringen würde, das Experiment zu wiederholen.

Ich zeige nicht ganz, dass man mit den Ohren sehen kann, aber ich denke, es zeigt, dass man mit den Augen hören kann. (Oder formaler verschmelzen wir unsere Sinne auf bemerkenswerte Weise)

Die Stückliste ist erschreckend:

  • Zwei Löffel
  • Williges Testobjekt

In meinem Fall war das Thema meine damalige Freundin.

Es ist bekannt, dass wir spektrale Effekte verwenden, um den Elevationswinkel eines Schalls zu bestimmen. Es ist bekannt, dass unsere Ohren und unsere Schultern den Klang formen, indem sie einige Frequenzen betonen und andere dämpfen. Natürlich ist dieser Prozess unmöglich, wenn Sie nicht wissen, wie der Sound "ursprünglich" war. Wenn Sie nicht wissen, was das Geräusch war, als es Sie erreichte, können Sie nicht herausfinden, wie sehr die Ohren es gefärbt haben.

Für dieses Experiment nahm ich zwei Löffel und beschrieb verbal, was ich tun würde. Ich wollte die Löffel an verschiedenen Stellen klicken und sie danach greifen lassen. Ich habe die Löffel bei dieser Demonstration absichtlich nicht zusammengeklickt, weil ich nicht wollte, dass sie die Löffel zu hören bekommt, bis das Experiment beginnt.

Ich bat sie zuerst, ihre Augen zu schließen. Ich klickte an verschiedenen Stellen mit den Löffeln, und sie identifizierte die Richtung, aus der sie dachte, dass es kam. Sie war in Links-Rechts-Richtung zuverlässig genau, weil sie die Zeitverzögerungen zwischen dem Schall, der ihr linkes und rechtes Ohr traf, hören konnte. Ihr Elevationswinkel war jedoch eher zufällig. Es schien überhaupt kein Muster zu geben.

Dann bat ich sie, ihre Augen zu öffnen und eine sehr langweilige Version dieses Experiments zu machen. Mit offenen Augen konnte sie natürlich zu 100% auf die klickenden Löffel zeigen. (Das war eigentlich der schwierigste Teil, weil es der Testperson absurd erscheint. Sie beginnen zu denken, dass es ein Trick ist).

Dann ließ ich sie ihre Augen wieder schließen und das Experiment wiederholen. Die Ergebnisse? Sie war jedes Mal tot. Ich habe keinen einzigen verpasst, sowohl Azimut als auch Elevation.

Also, was behaupte ich, ist passiert? Als wir mit dem Experiment begannen, kannte sie die Frequenzspektren des Klapperns der Löffel nicht. Daher konnte sie nicht effektiv zurücksetzen, was ihre Ohren und Schultern anwendeten, und konnte keine Höhenwinkel herausfinden. Sie konnte einige Vermutungen anstellen, als ein Mensch, der Dinge zusammenklappern hörte, aber das reichte nicht aus, um die Aufgabe zu erfüllen.

In der langweiligen zweiten Phase konnte sie nun die Informationen, die sie aus ihren Augen bekam, mit denen aus ihren Ohren verschmelzen. Jetzt konnte sie mit ihren Augen bestimmen, aus welchem ​​Winkel das Geräusch kam, herausfinden, wie die Transformation ihrer Ohren/Schultern sein sollte, und wieder herausfinden, was das „wahre“ Geräusch der Löffel war.

In der dritten Phase kannte sie nun den „wahren“ Klang der Löffel, sodass sie jedes Mal, wenn Schallwellen ihre Ohren trafen, dieses Wissen nutzen konnte, um herauszufinden, welche Transformation ihre Ohren/Schultern angewendet haben mussten, und Winkel herauszufinden.

Ich habe dies verwendet, um zu argumentieren, dass wir mit unseren Augen hören können, aber es könnte effektiver sein zu sagen, dass das Gehirn der Trennung zwischen den 5 Sinnen nicht so viel Aufmerksamkeit schenkt, wie wir es tun, wenn wir über unsere sensorische Erfahrung sprechen. So weit es geht, sind das alles nur neurale Reize. Es wird diese zu einem kohärenten Bild verschmelzen, und darauf kommt es wirklich an.

+1, aber der anekdotische Bericht ist zwar interessant zu lesen, aber nicht zu überzeugend, da niemand Ihre Ergebnisse und ihre Gültigkeit überprüfen kann. Könnten Sie Quellen jeglicher Art hinzufügen?