Was ist die physikalische/elektrische Grenze der Audioqualität?

Vor ein paar Tagen war ich in einem Kurs über Elektronik in meinem Arbeitszimmer. Die erste Lektion war eine Einführung in das Hauptthema, Bits, analoge Signale, Konvertierung usw. Ein Beispiel wurde vom Lehrer gefragt: Was ist die maximal machbare Anzahl von Bits, um Audioinformationen zu speichern?

Einige der Antworten, die durch die Klasse geworfen wurden, waren "64bit, 32bit, 16bit, 8bit (ja, ich weiß ...) ...".

dann hat der lehrer gesagt es sind etwa 18,19 bit, dann ist die obergrenze erreicht weil verzerrungen, rauschen etc bei audioaufnahmen eine große rolle spielen.

Ich weiß, dass die typische DVD/Studio-Qualität 24-Bit-Audio ist.

Dies brachte mich jedoch zum Nachdenken: Was ist die maximale physische/reale/elektronische Bitgröße, in der ein Audiostück gespeichert werden kann? Wäre 32-Bit-Audio übertrieben / enthält zu viel Rauschen?

Irgendwelche Erklärungen/Quellen dazu?

Es gibt keine maximale Stichprobengröße. Ihr Beispiel kann 2 Megabyte umfassen, wenn Sie dies wünschen.
Ich denke, die Frage des Lehrers ist eine gute Einführung. Es impliziert mehrere wichtige Themen, die sicherlich im Kurs behandelt werden: Signal-Rausch-Verhältnis (SNR), logarithmische Skalen (dB vs. log2), Quantisierungseffekte, praktische Überlegungen ("Balanced Design") - und die Relevanz des Marketings Zahlen wie „32bit Audio“, „9600dpi“, „40 Megapixel Smartphone-Kamera“ oder „392kbit/s MP3“.
Beachten Sie, dass sich das 32-Bit-Gleitkommaformat hervorragend zum Bearbeiten von Audio eignet. Es hat eine ausgezeichnete Sample-Tiefe (mindestens 24 Bit) und einen viel zu großen Dynamikbereich, sodass Sie nicht Gefahr laufen, das Signal zu übersteuern oder zu klein zu machen.

Antworten (6)

Was ist die maximale physische/reale/elektronische Bitgröße, in der ein Audiostück gespeichert werden kann?

Wie Dzarda bemerkt, ist dies keine vernünftige Frage, und es ist nicht klar, was Sie mit „Stück“ meinen. Wenn Sie Sample meinen, können Sie es in so vielen Bits speichern, wie Sie speichern können. Typische HDs enthalten 1 TB und mehr, sodass 8 Tera Bits in Reichweite wären.

Wird 32-Bit-Audio übertrieben sein / zu viel Rauschen enthalten?

Es ist genauso übertrieben, dass es keinen Sinn macht, sein Fahrrad mit einer sehr schweren Kette zu schützen, die mit einem weichen Kunststoff-Vorhängeschloss verschlossen ist. Lieber weniger Geld für die Kette ausgeben und dafür ein besseres Vorhängeschloss kaufen.

Nehmen wir der Argumentation halber an, dass der Signal-Rausch-Abstand der analogen Teile Ihres Audiosystems 16 Bit entspricht. Wenn Sie digitalen Ton wiedergeben, der als 18-Bit gespeichert ist, der ~3% dieses Rauschens hinzufügt: Es erhöht das Rauschen um ~3%. (von 100 bis 125, in willkürlichen Einheiten). 20 Bit erhöhen ihn um 0,7 %. 32 Bit um 0,00098 %. Das heißt: Vorausgesetzt, Sie haben eine perfekte Übersetzung von digital nach analog.

Die Kosten für die Speicherung steigen linear mit der Bitgröße, die Kosten für einen vollbereichsgenauen D/A-Wandler steigen fast exponentiell, wenn Sie sich einer bestimmten Anzahl von Bits (~22?) nähern. Die Verwendung von mehr Bits als die äquivalente Qualität in den analogen Teilen kostet also mehr, aber der Qualitätsgewinn nimmt ab. Es ist also einfach nicht wirtschaftlich, mehr Bits zu verwenden: Wenn Sie mehr Geld ausgeben möchten, um eine bessere Qualität zu erhalten, sollten Sie es für die analogen Teile ausgeben. (Ich bin kein Audiophiler, aber AFAIK ist der Lautsprecher oft das schwächste Glied.)

Das ist ein roter Faden im Engineering: Es geht nicht darum, Einzelteile möglichst gut zu machen, sondern um ein ausgewogenes Design.

Ihr 3. Absatz (Bitberechnungen) ist eine Masse von Verwirrung und widersprüchlich in sich. Warum erhöht das Bewegen von 16 - 18 Bit das Rauschen um 25% (Berechnungen zur Unterstützung dessen) - wenn es eine bekannte Beziehung zu verringertem Rauschen bei höheren Bittiefen gibt, nach Ihrem Argument, wenn ich die Bittiefe auf 14 Bit verringert habe das Rauschen würde um 25% sinken? Was würde mich dann davon abhalten, die Bits für eine ideale Konvertierung auf 1 Bit zu verringern? - Das ist eindeutig Unsinn. Ein weiterer Widerspruch darin, dass bei höheren Bittiefen (32 Bit) das Rauschen kaum zunimmt? Sehr verwirrend.
Wenn das Rauschen der analogen Teile dem Rauschen eines 16-Bit-Digitalkanals entspricht (Annahme), dann hat eine solche Kombination den gleichen Rauschbeitrag von den analogen und digitalen Teilen, sodass der digitale Teil dem analogen Rauschen 100 % Rauschen hinzufügt. Wenn Sie jetzt von 16 auf 18 Bit wechseln, wird dieser Rauschbeitrag des digitalen Teils von 100 % auf 25 % (relativ zum analogen Rauschbeitrag) reduziert: Der Quantisierungsfehler eines 18-Bit-Kanals beträgt 1/4 des Quantisierungsfehlers eines 16-Bit-Kanals .
Nicht einmal annähernd richtig. Unabhängige Rauschquellen addieren sich als RSS (Root Sum of Squares), sodass zwei Quellen mit identischer Größe das Gesamtrauschen als sqrt(2) erhöhen. Für die RMS-Messung eines idealen ADC ist das SNR = 6,02 * N + 1,76 (dB), was in Quadratur mit dem analogen Rauschen addiert wird, sodass das Bewegen von 16 auf 18 Bit das Rauschen um 12,04 dB verringert, aber in Quadratur hinzugefügt, sehen Sie nur eine Abnahme in Rauschen von sqrt (2) zu sqrt (1 + 1/16) = 1,03 X, sodass der digitale Aspekt nur 3% beiträgt.
Sie haben Recht mit dem RSS-Zusatz, und das ändert zwar etwas an den Zahlen, aber nichts am Prinzip.
@Wouter - Hallo, ich sehe, dass Sie die Bearbeitung Ihrer Antwort genehmigt haben. Diese Bearbeitung ließ jedoch den Ausdruck „ von 100 auf 125, in willkürlichen Einheiten “ unverändert, obwohl die ursprüngliche Erwähnung einer Erhöhung um 25 % in eine Erhöhung um 3 % geändert wurde. Sollte daher der Ausdruck „von 100 bis 125 , in willkürlichen Einheiten“ nicht in „von 100 bis 103 , in willkürlichen Einheiten“ geändert werden? Vielen Dank.

Die Technologie könnte es Ihnen ermöglichen, (fast) unendlich große (Samples/Sek.) und unendlich tiefe (Bits) Daten zu speichern, und tatsächlich speichern viele Dinge so etwas: Es gibt viele Kameras, die schneller und detaillierter als Menschen aufnehmen können Augen sehen können, zum Beispiel 500 Bilder pro Sekunde. Ebenso gibt es wissenschaftliche Instrumente wie Seismometer, die (vereinfacht gesagt) Mikrofonen sehr ähnlich sind, aber weitaus empfindlicher als das menschliche Ohr, und die aufgezeichneten Daten werden wahrscheinlich detaillierter gespeichert, als ein Mensch direkt interpretieren könnte, wenn sie in der realen Welt wiedergegeben würden Ebenen. Diese verschiedenen Geräte werden jedoch fast immer verwendet, um Dinge zu erfassen, damit wir sie auf andere Weise analysieren können: eine Welle in einem Diagramm, ein Zeitlupenvideo usw.

Zurück zur Audioaufnahme und -wiedergabe: Auch hier gibt es wissenschaftliche und Testinstrumente, die Signale in weitaus besserer Qualität (wie in Auflösung / Tiefe / Genauigkeit) abtasten, aufzeichnen, reproduzieren und erzeugen können, als Menschen verarbeiten können, aber es macht nicht viel Sinn, sie zu haben in einem Tonstudio.

Nun, in einem wirklich guten Mehrspurstudio möchten Sie möglicherweise eine bessere Qualität, als Menschen erkennen können, wenn Sie viele Dinge zusammenfügen. Je weniger Fehler Sie einführen, desto besser wird es im endgültigen Mix. Wieder vereinfacht; Wenn Sie alle harten Summen mit 4 Dezimalstellen durchführen, muss Ihre endgültige Antwort möglicherweise nur 1 Dezimalstelle betragen, kommt aber möglicherweise immer noch besser heraus, da Sie nicht so viel durch Rundungsfehler verloren haben.

Im letzten Fall (menschlicher Konsum) können Menschen nur so viel erkennen, dass Geräte im Allgemeinen dafür gut genug sind, denn warum sollten Sie mehr Arbeit ohne Gewinn machen?

Als Beispiel: Die digitale Bildgebung hat bei 8 Bit pro Farbe die Spitze erreicht, weil das Auge nicht mehr als etwa 256 Graustufen / die Gesamtkombination von 16,8 Millionen Farben und Schattierungen unterscheiden kann. Wir haben heutzutage 64-Bit-PCs und viel bessere Digitalkameras, wir könnten 16 Bit pro Farbe speichern, aber die Leute können 281.474.976.710.656 verschiedene Farben nicht sehen und wir würden viel Mühe verschwenden, diese Daten zu erfassen und zu speichern.

Ebenso wird niemand für ein Tonstudio voller Ausrüstung bezahlen, das eine Fliege hören, aufnehmen, aufnehmen und reproduzieren kann, die im hinteren Teil des Raums über jemanden pupst, der auf ein Schlagzeug einschlägt, da niemand es jemals hören wird, selbst wenn es so ist dort.

Es kann tatsächlich einige große Vorteile geben, die über 8 Bit pro Farbe und ebenso 16 Bit für Audio hinausgehen, da sowohl Sehen als auch Hören quasi-logarithmisch sind, Bilder und Töne jedoch linear kombiniert werden müssen. Es ist nicht notwendig, zwischen 99,5 % voller Helligkeit und 100 % voller Helligkeit zu unterscheiden, aber wenn das Hellste in einer Szene 5 % der vollen Helligkeit beträgt, kann der Unterschied zwischen 0,2 % der vollen Helligkeit und 0,1 % der vollen Helligkeit sein riesig.
Sie haben Recht - es ist hilfreich, mehr Daten zu erfassen, als Sie benötigen, insbesondere wenn Sie sie verarbeiten möchten (z. B. ein CSI: Stil "verbessern!" auf einem Bild oder einer Aufnahme, um Details hervorzuheben, die sonst verborgen sind oder nicht verwendet werden voller dynamischer Bereich verfügbar). Sie können ein vollständig „schwarzes“ Bild mit 100 Schwarzstufen aufnehmen, aber die Daten dienen dazu, den Kontrast zu erhöhen und die Details zu zeigen. Je höher die Datenmenge, die Sie erfassen, desto mehr kostet das natürlich, und viele Leute kümmern sich nie genug um den Nutzen.

Spaß... mit ein paar Zahlen zu spielen. Nehmen wir eine Quellenimpedanz von 1 kOhm an. (Sie müssen etwas annehmen.) Das hat also ~4 nV/rtHz Johnson-Rauschen. Bei einer Bandbreite von 10 kHz sind das ~400 nV Rauschen. OK und davon ausgehen, dass es bis zu 5 Volt gewonnen und gespeichert wurde. Das ist ungefähr 10^7 im Dynamikbereich ... 23 Bit. (Im wirklichen Leben wird es mehr Lärm geben ...)

Sie gehen davon aus, dass das Breitbandrauschen eine Art absolute Grenze darstellt. Es tut nicht. Tests haben gezeigt, dass das menschliche Ohr Musiktöne wahrnehmen kann, die 10 bis 20 dB oder mehr unter dem Breitbandrauschpegel liegen. Psychoakustik ist ein kompliziertes Thema.
@DaveTweed, Hey, das ist absolut richtig! (Wir haben ein Instrument mit einer Sinuswelle, die im Rauschen vergraben ist, und ich teste es, indem ich zuhöre.) OK, also fügen Sie noch ein paar Bits hinzu: ^) Ich weiß sehr wenig über Mikrofone. Haben sie eine Rauschgrenze? nicht im Zusammenhang mit Johnson-Rauschen? Vielleicht Brownsche Bewegung des Elements (Spule.)
Nun, es gibt sicherlich die Brownsche Bewegung der Luft (das Konzept gilt nur für Flüssigkeiten), die sowohl das Mikrofon als auch das Trommelfell betrifft. Aber auch das ist Breitbandrauschen, das keine absolute Grenze darstellt.
Ich stimme der Signalmittelung zu, dass wir weiter in das Rauschen vordringen und ein Signal finden können. Das macht die Frage offen. SNR = 1 schien einfach ein natürlicher Bezugspunkt zu sein.

Im Fall von Audio, das per Telefon übertragen wird, werden die Quantisierungspegel für den A/D durch das Rauschpegel-Modellierungssystem bestimmt. Das heißt, wir sollten die Quantisierungsstufen nicht erhöhen, da Rauschen in den konvertierten Werten enthalten ist. Darüber hinaus reagiert das Ohr nicht linear, sodass zur Optimierung der Bandbreite des per Telefon übertragenen Signals eine nichtlineare Umwandlung verwendet wird, die es ermöglicht, das Audio in 8-Bit zu codieren und ein verständliches Signal wiederherzustellen.

Offensichtlich ist die Qualität der Audioübertragung für ein Telefon nicht für ein System mit High-Fidelity-Audio bestimmt.

Kurz gesagt besagt die Theorie, dass es keine Obergrenze für die Anzahl der Quantisierungsstufen eines Audiosignals gibt, aber in der Praxis kann das im System vorhandene Rauschen eine Obergrenze setzen. Weitere Informationen finden Sie unter diesem Link .

32-Bit-Audio, das im Fließkommaformat gespeichert ist, ist in der professionellen Industrie üblich. Dies dient jedoch dazu, Rundungsfehler während der digitalen Verarbeitung zu reduzieren, wo es durch alle Arten von digitalen Filtern und Transformationen stark verarbeitet wird. Auf der Aufnahme- oder Wiedergabeseite glaube ich nicht, dass irgendjemand zwischen 24 Bit bei 192 kHz und tieferem, schnellerem Sampling unterscheiden kann. Wahrscheinlich nicht einmal Fledermäuse.

Es scheint, dass Sie einige grundlegende Begriffe verstehen müssen. Es gibt AD<->DA-Wandler mit unterschiedlichen "Bit"-Größen und unterschiedlichen Betriebsfrequenzen. Die Bitgröße wirkt sich auf die Genauigkeit der „Abtastung“ aus, während die Frequenz die Abtastrate beeinflusst.Typischerweise haben Sie ein Audiosignal, das Sie digitalisieren möchten. Die erste Frage, die Sie beantworten müssen, lautet also: Wie genau muss die Probe sein? Je höher die Anzahl der verwendeten Bits, desto höher die Qualität des reproduzierten Audios und desto höher die Kosten des Konverters. Je höher die Abtastrate, desto höher die Qualität des wiedergegebenen Audios und desto höher die Kosten des Konverters. Die erste praktische Grenze wird also durch die Kosten des Konverters auferlegt. Es gibt eine weitere praktische Grenze, die durch die "menschliche Sensibilität" auferlegt wird. Wenn unsere Ohren keinen Unterschied zwischen dem Original und dem reproduzierten Audio erkennen können, sind die Anzahl der Bits und die Abtastrate, die verwendet werden, um dies zu erreichen, "gut genug". Basierend auf diesen Informationen glaube ich, dass Ihre Frage lauten sollte:
Was sollte die maximale, praktische Anzahl von Bits (eines AD <-> DA-Wandlers) sein, um eine akzeptable Kopie eines Audiosignals reproduzieren zu können?
Ich glaube, dass entsprechende Berechnungen bei einer Abtastrate von 150 KHz ungefähr 18 Bit ergeben würden.

„Akzeptabel“ ist eine dieser Spezifikationen, die absolut nichts bedeuten.