Wie ist eine menschliche Stimme einzigartig? [abgeschlossen]

Nun, ich bin ziemlich neu in Bezug auf Konzepte von Vokalklängen. Aus physikalischer Sicht glaube ich, dass ein Ton zwei grundlegende Parameter hat, nämlich Frequenz und Amplitude.

Betrachtet man die von der menschlichen Stimme erzeugte Endschallwelle, so muss diese Frequenz und Amplitude als Parameter haben. Nun, wenn ein Mensch in mehreren Frequenzen (mehreren Tonhöhen) und Amplituden (mehreren Lautstärken) sprechen kann, habe ich mich gefragt, was jede menschliche Stimme einzigartig macht?

Selbst wenn zwei Personen eine anhaltende Note erzeugen (z. B. dieselbe Musiknote), können ihre Stimmen leicht unterschieden werden. Warum scheinen die Stimmen also unterschiedlich zu sein?

Gibt es noch andere Unterscheidungsmerkmale oder habe ich einen Denkfehler?

Ich verstehe nicht, was das mit Physik zu tun hat
Sie haben ein großes Missverständnis - Menschen erzeugen keine reinen Frequenzen wie ein Sinuswellengenerator.
@JohnRennie Nun, was macht eine menschliche Stimme in Bezug auf Amplitude und Frequenz einzigartig? Amplitude und Frequenzen sind physikalische Konzepte.
Luftstrom ist ein physikalisches Konzept, aber wir beantworten hier keine Fragen zum Fliegen von Flugzeugen.
@JonCuster Gilt das auch für eine anhaltende Note?
Die meisten Geräusche, einschließlich der menschlichen Stimme, sind Summen vieler Frequenzen mit unterschiedlichen Amplituden, nicht nur eine einzelne Frequenz. Sogar eine gehaltene Note hat eine Reihe von Frequenzen, selbst wenn sie von einem Klavier oder einer Pfeifenorgel gespielt wird (obwohl letztere ziemlich wenige Frequenzen haben kann).
Ich habe eine schnelle Google-Suche durchgeführt und dieses Papier gefunden (sieht aus wie für einen Laborkurs), das Sie interessieren könnte. Es führt eine Spektralanalyse verschiedener Arten von Stimmen durch. ling.cam.ac.uk/li9/lab3_m08_speechandspectralanalysis.pdf
Stimmbänder, Lungen... Die Eigenschaften Ihrer Stimme kommen von Ihrem Körper und davon, wie Sie ihn einsetzen.
Das ist natürlich eine physikalische Frage; was die folgenden Antworten deutlich zeigen.
Ich stimme dafür, diese Frage als nicht zum Thema gehörend zu schließen, da es darum geht, menschliche Geräusche und nicht willkürliche Geräusche zu unterscheiden.

Antworten (3)

Ein "reiner Ton" ist ein Ton, der als Druckprofil eine einzelne Sinusfunktion hat. Die menschliche Stimme ist kein reiner Ton; es ist eine Überlagerung vieler verschiedener Sinuswellen mit unterschiedlichen Frequenzen und unterschiedlichen Amplituden. Hier ist ein Bild, das veranschaulicht, wie viele Sinuswellen unterschiedlicher Frequenzen kombiniert werden können, um eine kompliziertere Wellenform wie die menschliche Stimme zu erzeugen:

Beispiel für ein Wellenüberlagerungsbild

( Bildnachweis )

Eine menschliche Stimme hat also viel mehr Parameter als nur eine einzige Amplitude und Frequenz. Es hat viele Amplituden, eine für jede von vielen verschiedenen Frequenzen (zusammen mit einer Phase für jede auch). Darüber hinaus ändern sich diese Amplituden im Laufe der Zeit, wenn die menschliche Stimme unterschiedliche Töne erzeugt.

Dieses Bild ist beispielsweise ein "Spektrogramm" einer menschlichen Stimme.

Spektrogrammbild der menschlichen Stimme

(Bildnachweis: Von Dvortygirl, Mysid – FFT in Baudline; Originalton von DvortygirlDiese Datei wurde abgeleitet von:En-us-it’s all Greek to me.ogg, CC BY-SA 3.0 )

Die x-Achse ist die Zeit, die y-Achse ist die Frequenz, und die Intensität gibt die Amplitude jeder Frequenzkomponente zu jedem Zeitpunkt an. Ein reiner Ton würde als einzelne durchgezogene horizontale Linie erscheinen. Sie können sehen, dass die menschliche Stimme aus vielen, vielen Frequenzkomponenten mit unterschiedlichen Amplituden besteht.

Aus dem gleichen Grund klingen Geige, Oboe und Klavier unterschiedlich, selbst wenn sie "die gleiche Note" spielen. Die musikalische Terminologie für das spezifische Gleichgewicht verschiedener Frequenzkomponenten ist als „ Timbre “ bekannt.

Weitere Informationen finden Sie im Wikipedia-Artikel .

Hier ist ein Bild der Wellenformen von drei Personen, die das Wort „Ramen“ sagen. Die ersten beiden sind tatsächlich bei verschiedenen Gelegenheiten dieselbe Person und haben daher dieselbe Tonlage in ihrer Stimme. Die dritte ist eine Frau, die das gleiche Wort „ramen“ sagt. Ich habe die Dauer der Clips so verändert, dass sie alle gleich viel Zeit in Anspruch nehmen.

Geben Sie hier die Bildbeschreibung ein

(Zum erweitern klicken).

Wenn Sie sehr genau hinsehen, gibt es ein anfängliches Segment mit weniger Turbulenzen (R), das sich in ein Segment mit viel Turbulenzen (A) verwandelt, das sich in eine im Wesentlichen reine Frequenz (M) mit, im Fall des Mannes, einem Oberton verwandelt; gefolgt von einem weiteren raueren Patch (E), gefolgt von einer weiteren "reinen" Note (N), die sehr ähnlich zu sein scheint, wenn auch etwas weicher, langgezogener und möglicherweise in jedem Fall mit einem höheren Oberton.

Eine Sache, die sehr auffällt, ist, dass die Stimme der Frau viel mehr auf und ab geht, was sich in der höheren Tonlage ihrer Stimme manifestiert.

Eine andere Sache ist dieses "Turbulenz"-Zeug: Dieses Zeug und jede Art von "Rauschen" sind viele verschiedene Frequenzen, die gleichzeitig auftreten. Ihr Ohr hat tatsächlich einen Teil namens "Cochlea", der kleine Härchen zu haben scheint, die aufgrund ihrer unterschiedlichen Positionen im Organ jeweils auf einer leicht unterschiedlichen Resonanzfrequenz liegen - also vibrieren unterschiedliche Frequenzen unterschiedliche Härchen in Ihren Ohren! Es ist das ganze Muster, wie diese Haare zusammen vibrieren, das den Unterschied zwischen den „a“-Lauten in Dad und Father ausmacht, die sehr unterschiedliche Vokale sind (zumindest im amerikanischen Englisch!).

Im Allgemeinen gibt es also nicht zwei reine Zahlen, die einen reinen Ton (seine Frequenz und Amplitude) unterscheiden, sondern es gibt stattdessen zwei Frequenzfunktionen , die einen reinen Ton unterscheiden. Die erste Funktion ist die Amplitude als Funktion der Frequenz – jeder reine Klang wird eine Reihe verschiedener Komponenten bei unterschiedlichen Frequenzen haben! -- und der zweite Parameter heißt Phase der verschiedenen Frequenzen. Die beiden Zahlen werden nur zwei Sinuswellen unterscheiden , die gleichphasig beginnen, aber nur sehr wenige der Töne, die Sie hören, sind Sinuswellen, und sehr wenige der Töne, die Sie hören, sind perfekt in Phase.

Da eine Phase bei solchen periodischen und quasi-periodischen Wellenformen am besten als Winkel dargestellt wird, erfolgt die natürliche Beschreibung eines Klangs tatsächlich in Form einer Funktion, die jeder Frequenz eine 2D -skalierte Rotationsmatrix zuweist, wobei der Rotationswinkel die Phase und die Skala ist -Faktor ist die Skala; Es ist in 2D, weil Sie nur einen Winkel benötigen. Solche skalierten Rotationsmatrizen sind auch als komplexe Zahlen bekannt und diese Funktion wird als Fourier-Transformation des Klangs bezeichnet , definiert als:

j [ f ] = F t f   j ( t ) = d t   e 2 π ich f t j ( t ) .
Es stellt sich heraus, dass dies eine sehr coole Eigenschaft hat, nämlich seine "inverse Transformation".
j ( t ) = F f t 1   j [ f ] = d t   e + 2 π ich f t j [ f ] .
Zunächst einmal bedeutet die Tatsache, dass es das überhaupt gibt , dass beide Bilder für jedes Zeitsignal zu 100% äquivalent sind: Wir können immer analysieren, wie es im Frequenzbereich aussieht. Zweitens ermöglicht uns die Tatsache, dass seine Inverse fast genau dieselbe Form annimmt, unsere schnellen Fourier-Transformationstricks wiederzuverwenden, um eine schnelle inverse Fourier-Transformation zu erstellen, sodass diese ständig in der Signalverarbeitung verwendet werden.

Jede menschliche Stimme enthält eine andere Grundtonhöhe, einen anderen Akzent (Zuordnung von Wörtern zu tatsächlichen Klängen!), ein anderes Phasenprofil, einige unterschiedliche Auswahlen an Obertönen. Es ist ein Beweis dafür, wie leistungsfähig unser Gehirn ist und wie lange wir brauchen, um eine Sprache zu lernen, dass wir sogar erkennen können, dass zwei verschiedene Personen von verschiedenen Orten dasselbe Wort sagen! Aber es gibt offensichtlich einige Muster, wie die einfacheren „reinen“ Naturen der M- und N-Lauten oben, an denen sich unser Gehirn „festhalten“ kann, um gemeinsame Klänge zu gruppieren. Es ist also nicht unmöglich, es ist nur sehr schwierig.

Ist das Kühnheit, die ich in diesem Screenshot sehe? Was für ein wunderbares (und mächtiges!) Programm dieser kleine Kerl ist ...
Könntest du die Spektrogramme posten? Das wäre meiner Meinung nach interessanter. (Klicken Sie auf den kleinen Pfeil auf „Audio Track“ und ändern Sie „Waveform“ in „Spectrogram“, gehen Sie dann zu Preferences → Spectrograms und ändern Sie die Fenstergröße auf 8192 oder höher.)

Wie von den anderen gesagt, besteht ein Ton aus Sinuswellen unterschiedlicher Frequenzen. Die Stimmung, die Sie hören, wird durch die niedrigste Frequenz (Grundton) bestimmt. Die anderen Frequenzen sind Vielfache dieser Grundfrequenz und werden Obertöne genannt.

Zusammenfassend lässt sich sagen, dass die Anzahl der verschiedenen Obertöne, die vorhanden sind, die Klangfarbe bestimmt und den Unterschied zwischen Ihrer und meiner Stimme, zwischen einem Klavier und einem Saxophon ausmacht.

Als Beispiel habe ich zwei a's (440 Hz) untersucht. Eine wird von einer Stimmgabel erzeugt, die andere wird von einer Oboe gespielt (die menschliche Sprache ist etwas komplexer, aber qualitativ gleich).

Unten werden die beiden aufgezeichneten Töne gleichzeitig angezeigt:Gelb: Klang einer Stimmgabel / Weiß: Klang einer Oboe

Führt man eine Fourier-Transformation (schaut nach, welche Frequenzen im Klang vorhanden sind) auf den Stimmgabelklang durch, ergibt sich folgendes Ergebnis: Eine Frequenz ist sehr dominant: 440 Hz, die anderen Frequenzen haben kaum Einfluss (man beachte die dB-Skala und also logarithmischer Maßstab auf der y-Achse).

Fourier-Transformation Stimmgabel

Die gleiche Analyse des Oboenklangs offenbart viel mehr: Mehrere Spitzen bei 440 Hz, 880 Hz, 1320 Hz, ... (2x, 3x, 4x, ... 440 Hz) Wie Sie sehen können, ist die Stimmung, die Sie hören (440 Hz), ist nicht die Frequenz, die im Klang am präsentesten ist (oft ist die erste Spitze die höchste, aber das Muster, das Sie unten sehen, gibt der Oboe ihren besonderen Klang). Ihr Gehör wird darauf trainiert, die Reihe von Spitzen als Ganzes wahrzunehmen und die Grundfrequenz als Tonhöhe zu erkennen.

Fourier-Transformations-Oboe

Ich glaube, du meinst "Stimmgabel" und nicht "Pechgabel"!