Welche Verzögerung zwischen zwei Audioquellen wird von den meisten Menschen als „bemerkbar“ empfunden?

Ich schließe ein Projekt ab, bei dem zwei Audioquellen über ein Netzwerk synchronisiert werden, und ich muss einige Zahlen finden, die darstellen, welche Art von Verzögerung als "bemerkbar" angesehen wird.

Ich habe versucht zu suchen, aber nicht viel gefunden; Alles, was ich finden kann, sind Papiere zur Lokalisierung.

Kennt jemand Studien oder Veröffentlichungen, die sich mit diesem Bereich befassen? Vielen Dank!

wahrscheinlich in der Größenordnung von Mikrosekunden ... genau wegen der Quellenlokalisierung.
Gute Frage! Willkommen bei cogsci.SE!
Es ist nicht mein Gebiet, aber ich stelle mir vor, dass eine Form der Suche nach "Signalerkennungstheorie" und "Audiosynchronie" ein guter Anfang wäre (siehe z. B. diese Google-Gelehrten-Suche ).
Vielleicht möchten Sie nach "Hörlückenerkennung" suchen.
Ein weiterer zu berücksichtigender Punkt: Verzögerungen im Audio beeinflussen die Phasenlage, und wenn Sie Geräusche haben, die zu unterschiedlichen Zeiten an jedem Ohr ankommen, wird das Gehirn dies in einigen Fällen räumlich interpretieren (z. B. beim Versuch, eine Schallquelle zu lokalisieren).

Antworten (1)

Es hängt stark davon ab, was Sie mit "merklich" meinen - was/warum Sie synchronisieren möchten und wie es die Ohren von physischen Lautsprechern erreicht.

Denken Sie daran, dass eine Schallquelle, die 30 cm/1 Fuß weiter vom Ohr entfernt ist, ungefähr den gleichen Effekt hat wie eine Millisekunde Verzögerung (Schallgeschwindigkeit ~ 340 m / s) - daher ist eine Synchronisierung in der Größenordnung von Mikrosekunden im Allgemeinen unnötig, es sei denn, Sie irgendwie haben und brauchen eine Lokalisierungsgenauigkeit im Submillimeterbereich. Allerdings können kleine Verzögerungen Phasenauslöschungsprobleme verursachen, die wahrnehmbar wären, aber von der genauen Platzierung der Schallquellen abhängen würden.

Wenn wir jedoch über die Grenzen des Geistes sprechen – es gibt zwei bekannte Phänomene; Erstens ist die Grenze, wo der Verstand Ton als gleichzeitig mit visuellen Reizen wahrnimmt (obwohl sie wirklich leicht versetzt sind), und die zweite ist, wo der Verstand zwei nahe, aber getrennte Geräuschspitzen als ein einziges Ereignis wahrnimmt (wobei der lauteste den schwächeren maskiert). Ich kann die genauen Grenzen jetzt nicht finden, aber beide sollten irgendwo zwischen 1 Millisekunde und 5 Millisekunden liegen, wenn ich mich richtig erinnere.

Interessante Feinheiten zu dieser Frage; Ich hätte es nicht vermutet. Willkommen bei cogsci.SE!
Ich bezweifle sehr, dass die Wahrnehmung, dass Ton und Video gleichzeitig sind, nur 5 ms oder weniger beträgt. Sie können versuchen, Videos (z. B.) in VLC abzuspielen und den Audio-Offset zu ändern. Sie werden sehen, dass Sie bis in die Dutzende von ms gehen können, bevor klar ist, dass etwas nicht stimmt. In diesem Artikel wird erwähnt, dass professionelle Videobearbeiter +/- 20 ms bemerken können. Ich bezweifle, dass "Normale" tiefer gehen können. telosalliance.com/images/LA%20White%20Papers/…
Andererseits kann man bei Verzögerungen von weniger als 1 ms und kürzer möglicherweise nicht nur die "2-nahe-aber-getrennt-Ereignisse" verlieren, sondern sie in eine räumliche Lokalisierung des Klangs umwandeln.