Nun, ich bin ziemlich neu in Bezug auf Konzepte von Vokalklängen. Aus physikalischer Sicht glaube ich, dass ein Ton zwei grundlegende Parameter hat, nämlich Frequenz und Amplitude.
Betrachtet man die von der menschlichen Stimme erzeugte Endschallwelle, so muss diese Frequenz und Amplitude als Parameter haben. Nun, wenn ein Mensch in mehreren Frequenzen (mehreren Tonhöhen) und Amplituden (mehreren Lautstärken) sprechen kann, habe ich mich gefragt, was jede menschliche Stimme einzigartig macht?
Selbst wenn zwei Personen eine anhaltende Note erzeugen (z. B. dieselbe Musiknote), können ihre Stimmen leicht unterschieden werden. Warum scheinen die Stimmen also unterschiedlich zu sein?
Gibt es noch andere Unterscheidungsmerkmale oder habe ich einen Denkfehler?
Ein "reiner Ton" ist ein Ton, der als Druckprofil eine einzelne Sinusfunktion hat. Die menschliche Stimme ist kein reiner Ton; es ist eine Überlagerung vieler verschiedener Sinuswellen mit unterschiedlichen Frequenzen und unterschiedlichen Amplituden. Hier ist ein Bild, das veranschaulicht, wie viele Sinuswellen unterschiedlicher Frequenzen kombiniert werden können, um eine kompliziertere Wellenform wie die menschliche Stimme zu erzeugen:
( Bildnachweis )
Eine menschliche Stimme hat also viel mehr Parameter als nur eine einzige Amplitude und Frequenz. Es hat viele Amplituden, eine für jede von vielen verschiedenen Frequenzen (zusammen mit einer Phase für jede auch). Darüber hinaus ändern sich diese Amplituden im Laufe der Zeit, wenn die menschliche Stimme unterschiedliche Töne erzeugt.
Dieses Bild ist beispielsweise ein "Spektrogramm" einer menschlichen Stimme.
(Bildnachweis: Von Dvortygirl, Mysid – FFT in Baudline; Originalton von DvortygirlDiese Datei wurde abgeleitet von:En-us-it’s all Greek to me.ogg, CC BY-SA 3.0 )
Die x-Achse ist die Zeit, die y-Achse ist die Frequenz, und die Intensität gibt die Amplitude jeder Frequenzkomponente zu jedem Zeitpunkt an. Ein reiner Ton würde als einzelne durchgezogene horizontale Linie erscheinen. Sie können sehen, dass die menschliche Stimme aus vielen, vielen Frequenzkomponenten mit unterschiedlichen Amplituden besteht.
Aus dem gleichen Grund klingen Geige, Oboe und Klavier unterschiedlich, selbst wenn sie "die gleiche Note" spielen. Die musikalische Terminologie für das spezifische Gleichgewicht verschiedener Frequenzkomponenten ist als „ Timbre “ bekannt.
Weitere Informationen finden Sie im Wikipedia-Artikel .
Hier ist ein Bild der Wellenformen von drei Personen, die das Wort „Ramen“ sagen. Die ersten beiden sind tatsächlich bei verschiedenen Gelegenheiten dieselbe Person und haben daher dieselbe Tonlage in ihrer Stimme. Die dritte ist eine Frau, die das gleiche Wort „ramen“ sagt. Ich habe die Dauer der Clips so verändert, dass sie alle gleich viel Zeit in Anspruch nehmen.
(Zum erweitern klicken).
Wenn Sie sehr genau hinsehen, gibt es ein anfängliches Segment mit weniger Turbulenzen (R), das sich in ein Segment mit viel Turbulenzen (A) verwandelt, das sich in eine im Wesentlichen reine Frequenz (M) mit, im Fall des Mannes, einem Oberton verwandelt; gefolgt von einem weiteren raueren Patch (E), gefolgt von einer weiteren "reinen" Note (N), die sehr ähnlich zu sein scheint, wenn auch etwas weicher, langgezogener und möglicherweise in jedem Fall mit einem höheren Oberton.
Eine Sache, die sehr auffällt, ist, dass die Stimme der Frau viel mehr auf und ab geht, was sich in der höheren Tonlage ihrer Stimme manifestiert.
Eine andere Sache ist dieses "Turbulenz"-Zeug: Dieses Zeug und jede Art von "Rauschen" sind viele verschiedene Frequenzen, die gleichzeitig auftreten. Ihr Ohr hat tatsächlich einen Teil namens "Cochlea", der kleine Härchen zu haben scheint, die aufgrund ihrer unterschiedlichen Positionen im Organ jeweils auf einer leicht unterschiedlichen Resonanzfrequenz liegen - also vibrieren unterschiedliche Frequenzen unterschiedliche Härchen in Ihren Ohren! Es ist das ganze Muster, wie diese Haare zusammen vibrieren, das den Unterschied zwischen den „a“-Lauten in Dad und Father ausmacht, die sehr unterschiedliche Vokale sind (zumindest im amerikanischen Englisch!).
Im Allgemeinen gibt es also nicht zwei reine Zahlen, die einen reinen Ton (seine Frequenz und Amplitude) unterscheiden, sondern es gibt stattdessen zwei Frequenzfunktionen , die einen reinen Ton unterscheiden. Die erste Funktion ist die Amplitude als Funktion der Frequenz – jeder reine Klang wird eine Reihe verschiedener Komponenten bei unterschiedlichen Frequenzen haben! -- und der zweite Parameter heißt Phase der verschiedenen Frequenzen. Die beiden Zahlen werden nur zwei Sinuswellen unterscheiden , die gleichphasig beginnen, aber nur sehr wenige der Töne, die Sie hören, sind Sinuswellen, und sehr wenige der Töne, die Sie hören, sind perfekt in Phase.
Da eine Phase bei solchen periodischen und quasi-periodischen Wellenformen am besten als Winkel dargestellt wird, erfolgt die natürliche Beschreibung eines Klangs tatsächlich in Form einer Funktion, die jeder Frequenz eine 2D -skalierte Rotationsmatrix zuweist, wobei der Rotationswinkel die Phase und die Skala ist -Faktor ist die Skala; Es ist in 2D, weil Sie nur einen Winkel benötigen. Solche skalierten Rotationsmatrizen sind auch als komplexe Zahlen bekannt und diese Funktion wird als Fourier-Transformation des Klangs bezeichnet , definiert als:
Jede menschliche Stimme enthält eine andere Grundtonhöhe, einen anderen Akzent (Zuordnung von Wörtern zu tatsächlichen Klängen!), ein anderes Phasenprofil, einige unterschiedliche Auswahlen an Obertönen. Es ist ein Beweis dafür, wie leistungsfähig unser Gehirn ist und wie lange wir brauchen, um eine Sprache zu lernen, dass wir sogar erkennen können, dass zwei verschiedene Personen von verschiedenen Orten dasselbe Wort sagen! Aber es gibt offensichtlich einige Muster, wie die einfacheren „reinen“ Naturen der M- und N-Lauten oben, an denen sich unser Gehirn „festhalten“ kann, um gemeinsame Klänge zu gruppieren. Es ist also nicht unmöglich, es ist nur sehr schwierig.
Wie von den anderen gesagt, besteht ein Ton aus Sinuswellen unterschiedlicher Frequenzen. Die Stimmung, die Sie hören, wird durch die niedrigste Frequenz (Grundton) bestimmt. Die anderen Frequenzen sind Vielfache dieser Grundfrequenz und werden Obertöne genannt.
Zusammenfassend lässt sich sagen, dass die Anzahl der verschiedenen Obertöne, die vorhanden sind, die Klangfarbe bestimmt und den Unterschied zwischen Ihrer und meiner Stimme, zwischen einem Klavier und einem Saxophon ausmacht.
Als Beispiel habe ich zwei a's (440 Hz) untersucht. Eine wird von einer Stimmgabel erzeugt, die andere wird von einer Oboe gespielt (die menschliche Sprache ist etwas komplexer, aber qualitativ gleich).
Unten werden die beiden aufgezeichneten Töne gleichzeitig angezeigt:
Führt man eine Fourier-Transformation (schaut nach, welche Frequenzen im Klang vorhanden sind) auf den Stimmgabelklang durch, ergibt sich folgendes Ergebnis: Eine Frequenz ist sehr dominant: 440 Hz, die anderen Frequenzen haben kaum Einfluss (man beachte die dB-Skala und also logarithmischer Maßstab auf der y-Achse).
Die gleiche Analyse des Oboenklangs offenbart viel mehr: Mehrere Spitzen bei 440 Hz, 880 Hz, 1320 Hz, ... (2x, 3x, 4x, ... 440 Hz) Wie Sie sehen können, ist die Stimmung, die Sie hören (440 Hz), ist nicht die Frequenz, die im Klang am präsentesten ist (oft ist die erste Spitze die höchste, aber das Muster, das Sie unten sehen, gibt der Oboe ihren besonderen Klang). Ihr Gehör wird darauf trainiert, die Reihe von Spitzen als Ganzes wahrzunehmen und die Grundfrequenz als Tonhöhe zu erkennen.
John Rennie
Jon Kuster
Sanath Bharadwaj
Kyle Kanos
Sanath Bharadwaj
Ruslan
tmwilson26
Mitchell Porter
Steeven
Benutzer10851
Benutzer10851
Danu