Warum kann die menschliche Stimme keinen Shepard-Ton erzeugen?

Audio eines Hirtentons auf YouTube.

Was ist also ein Shepard-Ton ?

Ein Shepard-Ton, benannt nach Roger Shepard, ist ein Klang, der aus einer Überlagerung von Sinuswellen besteht, die durch Oktaven getrennt sind. Wenn sie mit einer sich nach oben oder unten bewegenden Grundtonhöhe gespielt wird, wird sie als Shepard-Skala bezeichnet. Dadurch entsteht die auditive Illusion eines Tons, der in der Tonhöhe kontinuierlich ansteigt oder abfällt, aber letztendlich nicht höher oder tiefer zu werden scheint. ( Wikipedia ).

Ein computersimulierter Shepard-Ton geht weiter und weiter und weiter...... Es endet buchstäblich nie. Wir fühlen (unser Gehirn nimmt wahr), dass die Amplitude oder die Frequenz oder was auch immer allmählich zunimmt, aber nach einiger Zeit fühlen wir, dass sich dieser Ton erneut wiederholt, beginnend am selben Punkt. Die Frequenz des Tons ändert sich also periodisch wie eine Sinuswelle.

Aber warum können wir, die menschliche Stimme, diesen Ton nicht erzeugen? So sehr wir uns auch bemühen, wir können nicht produzieren. Dies kann auf Erschöpfung oder die Kapazität der Lungen zurückzuführen sein. Unsere Stimme scheint ab einer gewissen Grenze gesättigt zu werden, ab der wir den Ton nicht mehr erzeugen können. Wieso den? Wenn sich die Frequenz des Tons periodisch wie eine Sinuswelle ändert, sollten wir in der Lage sein, den Ton dort weiter zu erzeugen, wo wir ihn begonnen haben. Aber nein, das passiert nicht. Wieso den?

PS-meine Terminologie kann falsch sein. Sie können es also gerne bearbeiten.

Nur ein Gedanke – der Shepard-Ton ist eine Mischung aus mehreren Tönen. Menschen neigen dazu, jeweils nur einen Ton zu erzeugen, aber vielleicht wäre es möglich, wenn eine Gruppe von Menschen jeweils einen Ton macht (acapella-ähnlich).
Kühl! Ich lerne jeden Tag etwas Neues! NB: Ich habe dieses Video gefunden und herumgespielt, indem ich meine Finger in und aus meinen Ohren gesteckt habe, im Takt mit dem springenden Ball, der versucht, die Illusion zu brechen.
Dieser absteigende Shepard-Ton klingt mächtig wie der Zwielicht-Soundtrack in Twilight Princess – und er erklärt seine überirdische Gruseligkeit weitgehend.
Eine menschliche Stimme hat einen Grundton und viele Obertöne. Die Erkennung von Vokalen und Konsonanten hängt davon ab, welche dieser Obertöne stärker sind.
@Soren: Ich bin daran interessiert, den Menschen kennenzulernen, der in der Lage ist, jeweils nur einen Ton zu erzeugen. Das wäre bemerkenswert!
Du kannst es, irgendwie. Sie brauchen nur ein paar Freunde (oder Nachbereiter), die Ihnen helfen. youtube.com/watch?v=PwFUwXxfZss Klingt gruselig...

Antworten (2)

Der menschliche Kehlkopf erzeugt eine Grundfrequenz und ihre Obertöne, weil der Mechanismus dem eines Entspannungsoszillators ähnelt . Wir haben jedoch nur begrenzte Kontrolle über die relative Amplitude der Obertöne (wir haben einige – so ändern wir die „Farbe“ eines Tons, den wir singen, und den Klang von Vokalen).

Um die Shepard-Skala zu erzeugen, müssen Sie in der Lage sein, die relative Amplitude der verschiedenen Harmonischen zu steuern – insbesondere das Verhältnis der niedrigsten zwei Harmonischen. In begrenztem Umfang tun wir dies, wenn wir den Vokal ändern, den wir singen – wobei der „oo“-Laut wenige „wirklich hohe“ Obertöne hat, während das „ah“ viele hat. Von der Hyperphysik-Site erhalten wir beispielsweise dieses Bild:

Geben Sie hier die Bildbeschreibung ein

zeigt, dass die Stimme viel oder harmonischen Inhalt hat. Aber es ist nicht "gleichmäßig verteilt" - wenn Sie also um eine Oktave abfallen, erzeugen Sie einen Klang, der so unterschiedlich ist, dass Sie nicht wirklich das Gefühl haben, eine "ewige" Skala zu haben.

Ich vermute, das wichtigste Problem besteht darin, dass Sie die niedrigste Harmonische mit einer langsam ansteigenden Amplitude wieder einführen möchten, damit die Note "in den unteren Bereich zurückkehrt", ohne jemals dorthin zu springen. Aber der Mechanismus der Stimmbänder ist zu einfach, um es zuzulassen.

Übrigens, wenn Soprane sehr hohe Töne singen, verlieren viele Menschen die Fähigkeit zu unterscheiden, welchen Vokal sie singen, da die Obertöne weiter auseinander liegen und das Ohr zwischen Vokalen unterscheidet, indem es die Form der Frequenzhüllkurve im Bereich bis zu einigen kHz schätzt ; Wenn es in diesem Bereich nur sehr wenige Harmonische gibt, kann die Form nicht bestimmt werden. Das "hohe C" (C7) hat eine Frequenz von 2093 Hz, daher stehen möglicherweise nur ein paar Obertöne zur Verfügung, um den Klang herauszufinden. Das macht Vokale im höchsten Register schwer zu unterscheiden.

@Micah - danke, dass du auf meinen Fehler hingewiesen hast. Ich glaube ich habe es jetzt behoben.
"Das Ohr unterscheidet zwischen Vokalen, indem es die Form der Frequenzhüllkurve im Bereich bis zu einigen kHz schätzt" <-- Referenz?
@DanielSank: Das menschliche Ohr kann möglicherweise Töne bis zu 20 kHz hören , aber bei diesen Frequenzen nimmt die Genauigkeit ziemlich schnell ab. Sie können die genaue Tonhöhe oder Lautstärke nicht hören, es ist fast binär (Ton vorhanden / nicht vorhanden).
@MSalters Ich glaube nicht, dass du falsch liegst, ich bitte nur um eine Referenz.
@DanielSank: Siehe hier . Die Kurzfassung: Die Vokalwahrnehmung basiert hauptsächlich auf den Frequenzen der ersten beiden Formanten (Spitzen in der spektralen Hüllkurve). Der niedrigste Formant variiert je nach Vokal von etwa 200 Hz bis etwa 800 Hz, während der zweitniedrigste von etwa 800 Hz bis etwa 2000 Hz variiert.

ich habe einige schäfertöne und sogar einen stimmgenerator programmiert.

Die menschliche Stimme kann diesen Klang aus dem gleichen Grund nicht erzeugen, aus dem eine einzelne oder sogar 3 Posaunen es nicht schaffen könnten. Wenn Sie 12 Posaunen hätten, könnten Sie sie möglicherweise auf ein Radsystem setzen, so dass die Tonhöhe jedes einzelnen erhöht wird und wenn die obere nach oben reicht, stummgeschaltet und auf die niedrigste Tonhöhe gesendet wird. Vielleicht hat jemand einen mechanischen Hirtenton gebaut, aber ich bezweifle es, und um den Klang mit Stimme zu emulieren, wären mehrere Sänger erforderlich. Es ist im Allgemeinen ein digitaler Effekt, kein akustischer Instrumenteneffekt.

Die menschliche Stimme ist ein monophoner Klanggenerator (mit Ausnahme der tibetisch-tantrischen Stimme) mit einem Hauptausgangskanal, dem Mund, und einigen Ausgangskanälen mit geringerer Lautstärke, dh den Wangen, dem Hals und der Nase, die alle von einer einzigen Stimmbox kommen.

Es ist die polyphone Natur des Shepard-Tons, die das Ohr verwirrt, indem ihm zu viele Obertöne gegeben werden, um ihn zu einem bestimmten Zeitpunkt klar im Ton zu definieren. Er ähnelt einem Akkord mit 12 oder 20 Noten, einer sehr breiten Palette von Tönen.

Ein Shepard-Ton erfordert entweder mehrere Oszillatoren, die die Tonhöhe ändern, oder mehrere statische Oszillatoren, die mehrere Filter durchlaufen. Der, den ich auf YouTube gefunden habe, ist besonders gut, weil er etwa 50 Sinus mit sanften Attacks verwendet, sodass es schwierig ist, einen Sound vom nächsten zu unterscheiden.

Die menschliche Stimmbox kann etwas Ähnliches nicht leisten, da sie für eine grundlegende Shepard-Ton-Illusion mindestens ein Dutzend kontrollierte Harmonische gleichzeitig erzeugen müsste, Töne, die in gleichen Abständen und zyklischer Natur sind, dh die Amplitude des tiefsten Tons nimmt zu, wenn der höchste Ton abnimmt.

Menschen können kaum einen tiefen Ton und einen hohen Ton gleichzeitig und unabhängig voneinander erzeugen, so dass der Ton des einen im Verhältnis zum nächsten präzise gesteuert werden kann und die Lautstärke im Verhältnis zum nächsten genau gesteuert werden kann. Die Sprachbox kann sicherlich nicht mehrere Obertöne mit gleicher Lautstärke und konstantem Tonhöhenabstand erzeugen und deren Lautstärke steuern.

Auch die menschliche Stimme hat Mühe, einen einzigen klaren, sorgfältig abgestimmten Ton zu erzeugen, und es sind mehrere sorgfältig kontrollierte Signale vor oder nach dem Filtern erforderlich.

Die Sprachbox müsste mehrere unabhängige Resonatoren haben.

Schauen Sie sich diese Dame an, die polyphone Obertöne singt: youtube.com/watch?v=vC9Qh709gas
Wie wäre es mit einem Chor aus 12 menschlichen Stimmen?
RedSonja das ist cool. es ähnelt einem tibetischen trantrischen Lied. Ich habe es nicht geschafft, Informationen über die Anatomie dieser Gesangstechnik zu finden, wenn sie aus der Nase oder dem Rachen stammt. es ist polyphisch mit 2 Stimmen. Dasselbe können Sie ganz einfach tun, indem Sie gleichzeitig pfeifen und singen. 12 menschliche Stimmen könnten definitiv einen coolen Shepard-Ton-Effekt erzeugen. Die interessantesten Stimmboxen sind die von Vögeln, die so faszinierend und vielseitig sind wie die Federn.