Erläuterungen zum Verfahren zur Berechnung der Referenzfrequenz

Ich entwickle ein Web-Tool, um Harmonic Key auf einem < Audio >/< Video >-Knoten auf einer Webseite zu erkennen. Ich habe über Wikipedia die "Harmonic Pitch Class Profiles" gefunden .

Es ist ein Verfahren, um die harmonische Tonart eines Songs zu extrahieren, etwa so:

  • 1 - Musikeingangssignal (OK).
  • 2 - Führen Sie eine Spektralanalyse durch, um die Frequenzkomponenten des Musiksignals zu erhalten. (OK)
  • 3 - Verwenden Sie die Fourier-Transformation, um das Signal in ein Spektrogramm umzuwandeln. (OK)
  • 4 - Führen Sie eine Frequenzfilterung durch. Es wird ein Frequenzbereich zwischen 100 und 5000 Hz verwendet.
  • 5 - Peak-Erkennung durchführen. Es werden nur die lokalen Maximalwerte des Spektrums berücksichtigt.

Diese Schritte werden mit dem AnalyserNode der WebAudioApi durchgeführt.

Mein Problem ist also hier , ich verstehe den Punkt 6 nicht; "Referenzfrequenz-Berechnungsverfahren". Hat jemand ein Beispiel oder so? Ich verstehe nicht, was ich in diesem Schritt tun soll.

Hier der Rest der Prozedur:

  • 6 - Referenzfrequenzberechnungsverfahren. Schätzen Sie die Abweichung bezogen auf 440 Hz ab.
  • 7 - Pitch -Class -Mapping in Bezug auf die geschätzte Referenzfrequenz. [...]
  • 8 - Normalisieren Sie den Merkmalsrahmen durch den Rahmen, der sich durch den Maximalwert dividiert, um die Abhängigkeit von der globalen Lautstärke zu beseitigen. [...]

Ich hoffe ich stelle meine Frage an der richtigen Stelle. Danke für Ihre Hilfe !

Haben Sie die Referenzen in Ihrem Wiki-Link gelesen? In diesen akademischen Papieren gibt es wahrscheinlich mehr Informationen, als Sie erwarten können, dass jemand hier in einer Antwort schreibt. Wenn Sie nach dem Lesen der Papiere einige spezifischere Fragen haben, können Sie sie hier (oder möglicherweise auf einer anderen SE -Website wie "Signalverarbeitung") stellen.

Antworten (1)

Dies ist ein ziemlich komplizierter Prozess, und wenn wir nicht nur über Schritt 6 sprechen, denke ich, dass Ihre Frage zu breit ist. Also werde ich nur über Schritt 6 sprechen.

Die Herausforderung, die Schritt 6 adressieren soll, ist die folgende: Es gibt keine feste Korrelation zwischen Tonhöhe und Frequenz . Eine Frequenz ist ein primär wissenschaftlicher Begriff. Wenn ein musikalischer Sound gespielt oder aufgenommen wird, wird entweder die Luft oder das Aufnahmemedium eine bestimmte Anzahl von Male pro Sekunde, dh bei bestimmten Frequenzen, angeregt. Wenn menschliche Ohren diese Frequenzen hören, kann es eine Empfindung einer Tonhöhe erzeugen (unter der Annahme, dass die Frequenzen für ein bestimmtes Muster zusammenkommen). Die Tonhöhe ist also die subjektive Interpretation des Gehirns von wissenschaftlich messbaren Frequenzen. Vergleichen Sie mit Lautstärke (subjektiv) und Intensität (wissenschaftlich).

Da die Tonhöhe subjektiv ist, kann der menschliche Verstand mehr als einen Frequenzsatz als dieselbe Tonhöhe interpretieren. Darüber hinaus gibt es in der Musiktheorie eine endliche Anzahl diskreter Tonhöhen, aber die Frequenz ist ein Kontinuum. Ein Musiker oder Musiktheoretiker kann also eine Note als "A4" bezeichnen, wenn sie eine Grundfrequenz zwischen etwa 425 und 450 Hz hat. Irgendwie muss Ihre Software diese Möglichkeit prüfen und die Zuordnung von Frequenzen zu Tonhöhen entsprechend anpassen.

Jetzt spielen Musiker gerne in Gruppen zusammen, und es wird furchtbar klingen, wenn einer von uns denkt, dass A4 435 Hz ist und ein anderer denkt, dass A4 440 Hz ist, also haben wir seit einigen Jahrhunderten Referenzfrequenzen entwickelt . Das bedeutet nur, dass wir uns darauf einigen, unsere Instrumente zu stimmen (das Stimmen ist die Anpassung der Frequenz, die von jeder nominellen Note gespielt wird), basierend auf einer einzigen Frequenz, so dass wir alle zusammen spielen können, wann immer wir wollen (mehr oder weniger).

Zu diesem Zeitpunkt sollte der bei weitem beliebteste Pitch-Referenz A4 eine grundlegende Häufigkeit von 440 Hz haben, und wir nennen das "A-440". In der Vergangenheit waren niedrigere Frequenzen für A4 beliebt, wie 435 Hz. Sobald ein Instrument auf A-440 eingestellt wurde, sollten alle seine Notizen auf eine bestimmte Weise mit der A4-Stimmung zusammenhängen. Diese Tabelle zeigt die Grundfrequenz jeder Note, wenn sie auf A-440-Tuning basieren.

Obwohl dies ein Standard ist, sind Instrumente real und Menschen fehlbar, sodass es für ein Instrument so gut wie unmöglich ist, mit allen Tönen genau auf die A-440-Stimmung zu treffen. Noch komplizierter ist die Tatsache, dass einige Instrumente Frequenzspektren erzeugen, bei denen es notwendig ist, bestimmte Noten absichtlich zu verstimmen, damit die "verstimmten" Frequenzen das richtige Tonhöhengefühl erzeugen (das Klavier ist ein berühmtes Beispiel und diese Verstimmung wird "Oktavstreckung" genannt). .

Wenn Ihre Software also anfängt, Frequenzen zu decodieren, die nicht mit der A-440-Frequenztabelle übereinstimmen, muss sie nach bestem Wissen und Gewissen schätzen, welche Tonhöhenempfindung beabsichtigt ist, und diese Tonhöhen diesen Frequenzen zuweisen. Das ist Schritt 6. Der Grund, warum Sie die Abweichung von 440 Hz schätzen möchten, ist, wenn Sie ein paar Noten aufheben, feststellen, dass sie nicht mit der Tabelle übereinstimmen, aber feststellen, dass sie gleichermaßen zu hoch oder zu niedrig sind, dann können Sie vermuten, dass das gesamte Instrument eingeschaltet ist mit sich selbst abstimmen, es ist einfach nicht richtig auf A-440 abgestimmt. Das bedeutet, dass Sie Ihre Tonhöhenzuweisungen verfeinern können, indem Sie davon ausgehen, dass alle Noten dieses Instruments ungefähr um denselben Betrag zu hoch oder zu tief sind.

Durch die Berechnung der Referenzfrequenz wird ermittelt, worauf A4 auf dem gegebenen Instrument wahrscheinlich tatsächlich abgestimmt ist, basierend auf den dekodierten Frequenzen. Wenn Sie beispielsweise die Frequenzen von 435, 870, 1305 und 1740 dekodieren, können Sie sich ziemlich sicher sein, dass das Muster A4 sein sollte, das auf 435 Hz statt 440 abgestimmt wurde, und das ist Ihre Referenzfrequenz für diese Aufzeichnung.