Ich interessiere mich nicht nur für Sprache, sondern um meine Frage konkret zu veranschaulichen, betrachte ich den Fall der Sprachwahrnehmung. Angenommen, einem Zuhörer wird eine akustische Wellenform dargeboten. Die Welle verursacht am Trommelfell des Zuhörers Abweichungen vom atmosphärischen Druck. Der Schalldruck als Funktion der Zeit ist also sozusagen „geschenkt“. Mechanisch also.
Aus dem Schalldruck können wir die Amplitude ableiten, und durch die Fourier-Transformation wird die Amplitude als Funktion der Zeit in den Frequenzbereich transformiert. Das heißt, die Amplitude als Funktion der Zeit wird zur Amplitude als Funktion der Frequenz. Wir verwenden diese Transformation, weil sie Eigenschaften der Welle offenbart, die wahrnehmungsrelevant sind, zB Formantfrequenzen. Vermutlich können Zuhörer auf die unter dieser Transformation beschreibbaren Eigenschaften der Wellenform achten.
Aber was ist mit mathematischen Modellen der akustischen Welle, die nicht einfach Transformationen auf der Welle sind, sondern die eine reichhaltigere Struktur aus zeitlichen Amplitudenschwankungen ableiten. Wie wäre es zum Beispiel mit einem Modell, das aus den eindimensionalen Druckschwankungen eine höherdimensionale Darstellung der Welle konstruiert? (Stellen Sie sich vor, dass die Amplitude nicht ein Punkt ist, der sich entlang der reellen Zahlenlinie hin und her bewegt, sondern die Welle als ein Punkt dargestellt wird, der sich beispielsweise im dreidimensionalen Raum bewegt). Angenommen, ein solches Modell offenbarte eine wahrnehmungsrelevante Eigenschaft P der Wellenform. Wäre der Zuhörer in der Lage, P direkt zu „hören“, oder müsste er sich an einer Informationsverarbeitungsaufgabe beteiligen, um P im Laufe der Zeit von Druckschwankungen zu erholen?*
* Mir ist klar, dass menschliche Zuhörer Gleichungen nicht wirklich in ihrem Kopf manipulieren. Ich verwende die Mathematik nur, um die zugrunde liegende neuronale Berechnung zu beschreiben.
Ich habe ein Papier mit dem Titel Summary statistics in auditive Perception (McDermott, Schemitsch & Simoncelli, 2013) gefunden, das für Ihre Frage relevant sein könnte. Wenn Sie nicht vollständig darauf zugreifen können, finden Sie hier eine großartige Beschreibung des Papiers . Bitte beachten Sie, dass ich darüber aus dem Gedächtnis schreibe und einige Details möglicherweise nicht korrekt sind.
Die Autoren hatten eine Aufgabe, bei der die Teilnehmer beurteilen mussten, ob zwei Tonausschnitte gleich oder unterschiedlich sind. Diese Tonauszüge könnten ferner ähnliche oder unterschiedliche Summenstatistiken haben, was bedeutet, dass den ursprünglich erzeugten Geräuschen eine gewisse Regelmäßigkeit höherer Ordnung überlagert wurde (wie etwa das einigermaßen regelmäßige Muster des Geräusches von Meereswellen, die zusammenbrechen, oder des Windes, der auffrischt, oder ein knisterndes Feuer). Die Klänge könnten sich also lokal unterscheiden (welche spezifische Frequenz wurde zu einem bestimmten Zeitpunkt angezeigt) oder global (was waren die Gesetzmäßigkeiten höherer Ordnung dieser Klänge). Dann zeigten sie diese Geräusche paarweise für unterschiedliche Zeiträume an.
Sie fanden heraus, dass Menschen Geräusche besser voneinander unterscheiden konnten, wenn die Geräusche länger anhielten – was logisch ist – aber dies galt nur, wenn sich die komplexen Klangtexturen voneinander unterschieden. Wenn die Texturen einander ähnlich waren, ging es den Leuten tatsächlich schlechter, wenn sie den (möglicherweise unterschiedlichen) Klängen länger zuhörten.
Die Interpretation der Autoren ist, dass das auditive System zunächst einfache Merkmale von Geräuschen kodiert, aber sobald es mit zu vielen Stimulationen konfrontiert wird, um es zu verfolgen, extrahiert es stattdessen Regelmäßigkeiten höherer Ordnung und verlässt sich auf diese für die Wahrnehmung.
Ich habe keinen technischen Hintergrund, daher kann ich nicht ins Detail gehen, was diese Regelmäßigkeiten höherer Ordnung mathematisch darstellen. Aber die Links enthalten einige Bilder mit Erklärungen, und Sie können ihnen möglicherweise mehr Informationen entnehmen als ich.
Hier ist die Zusammenfassung:
Sensorische Signale werden mit hoher Auflösung umgewandelt, aber ihre Struktur muss in einem kompakteren Format gespeichert werden. Hier liefern wir Beweise dafür, dass das auditive System die zeitlichen Details von Klängen unter Verwendung von zeitgemittelten Statistiken zusammenfasst. Gemessen wurde die Diskriminierung von „Klangtexturen“, die durch bestimmte statistische Eigenschaften gekennzeichnet sind, wie sie normalerweise aus der Überlagerung vieler akustischer Merkmale in Hörszenen resultieren. Wenn Zuhörer Beispiele verschiedener Texturen unterschieden, verbesserte sich die Leistung mit der Dauer des Ausschnitts. Wenn Zuhörer dagegen verschiedene Beispiele derselben Textur diskriminierten, nahm die Leistung mit der Dauer ab, ein paradoxes Ergebnis, wenn man bedenkt, dass die für die Unterscheidung verfügbare Information mit der Dauer wächst. Diese Ergebnisse weisen darauf hin, dass das Gehirn, sobald diese Geräusche von mäßiger Länge sind, s Darstellung ist auf zeitlich gemittelte Statistiken beschränkt, die für verschiedene Beispiele derselben Textur mit zunehmender Dauer zu denselben Werten konvergieren. Solche statistischen Darstellungen erzeugen eine gute kategoriale Unterscheidung, schränken jedoch die Fähigkeit ein, zeitliche Details zu erkennen.
Bearbeiten: Ich habe einen Link zum PDF des zweiten Artikels gefunden, den ich erwähne.
Ich bin mir nicht ganz sicher, was Sie fragen. Ich gebe meinen Kommentar als Antwort, weil hier mehr Platz ist. Ich werde es löschen, wenn Sie das Gefühl haben, dass ich daneben liege.
Soweit es die physikalische Theorie angeht (und ich verstehe sie), ist Schall die Bewegung von Luftmolekülen und die daraus resultierende Dichteschwankung. Wenn wir diese Dichteschwankungen messen und in Zahlen darstellen, erhalten wir eine wellenförmige, wellenförmige Funktion mit den Eigenschaften Wellenform (sinusförmig, rechteckig, Sägezahn), Frequenz, Amplitude und Transversalität (ist die Welle aufrecht oder nach hinten oder vorne geneigt?). Habe ich etwas vergessen?
Nun scheinen Sie anzunehmen, dass unser Trommelfell die Frequenz (Tonhöhe) und Amplitude (Lautstärke) einer akustischen Welle wahrnimmt, aber vielleicht nicht die Transversalität oder Wellenform. Aber das ist ein Denkfehler.
Wellen nehmen wir nicht wahr. Wir nehmen Luftdruckänderungen wahr. Es spielt keine Rolle, welche Welle diese Änderungen mathematisch darstellt. Jede Veränderung (in einer bestimmten Größenordnung) stimuliert unser Trommelfell. Die Messung der Schwingung des Trommelfells ergibt eine ähnlich komplexe Welle (obwohl wahrscheinlich nicht dieselbe wie die Welle der Luftdichteschwankung, aufgrund unterschiedlicher physikalischer Eigenschaften des Materials des Trommelfells). Was wir haben, ist die „Übersetzung“ von Dichteschwankungen in einem Stoff in die Schwingungen einer Membran. Beide können als Wellen modelliert werden, und einige Änderungen in diesen Wellen werden während des Übersetzungsprozesses auftreten (wahrscheinlich werden einige feine Komplexitäten ausgeglichen, was zu einer weniger feinen "stacheligen", aber "sanfteren" Welle führt).
Dasselbe gilt für die anderen Sinne. Unsere Augen nehmen keine Farbe, Sättigung oder Helligkeit wahr, sie werden durch Photonen (oder was auch immer) angeregt. Unsere Wahrnehmung repräsentiert, dh „nimmt“ die elektrischen Impulse unserer Rezeptoren als Farbe, Helligkeit etc. auf, daher denken wir gerne in einem Modell, das diese Eigenschaften beinhaltet, aber unsere Augen reagieren überhaupt nicht auf „Farbe“. In der physischen Welt gibt es keine Farbe, nur die Bewegung von Partikeln.
Vielleicht hilft dir das bei der Klärung deiner Frage.
Benutzer3116
RNG
Benutzer10932
Anna