Welche technischen Schwierigkeiten liegen hinter dem Bau eines Sensors mit hohem Dynamikbereich wie dem menschlichen Auge?

Warum haben wir noch keine High-Dynamic-Range-Sensoren, die in jedem Teil eines Bildes die richtige Belichtung haben?

Tatsächlich habe ich nach der Beantwortung gesehen, dass dies hier bereits diskutiert wurde . Wenn das nicht alles für Sie beantwortet, sollten Sie Ihre Frage um weitere Details erweitern.
Eine BlackMagic (Full HD Video) Kamera hat einen EV von 14, moderne professionelle Videokameras (4K) haben 18 EV. Wir haben also diese Sensoren...

Antworten (4)

Es gibt bereits Kameras mit DR, die sowohl sofort als auch insgesamt größer als das menschliche Auge sind. Der Dynamikbereich des menschlichen Auges ist nicht so groß, wie die meisten Leute denken. Soweit ich mich erinnere, liegt es irgendwo bei 12 bis 16 EVs, was ungefähr dem Niveau einer modernen DSLR entspricht.

Der Hauptunterschied besteht darin, dass wir eine extrem natürliche Blendensteuerung haben, die sich an verschiedene Teile des Bildes anpasst. Tatsächlich erledigt unser Gehirn das Stapeln von Bildern automatisch für uns. Wenn wir den hellen Teil einer Szene betrachten, verkleinern sich unsere Pupillen und wir sehen die Details des hellen Teils. Wenn wir unseren Fokus auf den dunkleren Teil verschieben, öffnen sich unsere Pupillen schnell und wir sehen die Details des dunklen Teils. Unser Gehirn weiß, wie der vorherige Teil aussah, und daher bemerken wir die Veränderung in unserem peripheren Sehen nicht, aber wir sehen tatsächlich nicht mehr so ​​viele Details, wo wir nicht mehr fokussiert sind.

In ähnlicher Weise gibt es selbst für den gesamten Bereich des menschlichen Sehvermögens spezialisierte Kameras, die viel dunkler werden können als wir und immer noch sehen, insbesondere Farben. Sie sind derzeit einfach zu teuer, um sie für die breite Öffentlichkeit herzustellen, da sie sehr hochwertige Materialien und Konstruktionen erfordern Holen Sie sich das Grundrauschen super niedrig. Es gibt auch Sensoren, die in der Lage sind, sehr helle Objekte zu betrachten, deren Betrachtung für Menschen schmerzhaft wäre.

AJ, DSLR haben nicht den gleichen Dynamikbereich wie das Auge. für DSLR ist 2 hoch 14, für das menschliche Auge ist 10 hoch 14
@RomeoNinov - nicht für sofortige DR, nur für den Anschein. Hast du eine Quelle für deine Behauptung? Meine Quelle ist hier „Wenn wir stattdessen den momentanen Dynamikbereich unseres Auges berücksichtigen würden (wo unsere Pupillenöffnung unverändert bleibt), schneiden Kameras viel besser ab. Dies wäre ähnlich, als würde man einen Bereich innerhalb einer Szene betrachten und unsere Augen anpassen lassen, und nirgendwo anders hinsehen. In diesem Fall schätzen die meisten, dass unsere Augen einen Dynamikbereich von 10 bis 14 Blendenstufen sehen können.
@RomeoNinov - etwas bessere Ressource . Es lohnt sich also, darauf hinzuweisen, dass unsere Augen besser sind, wo Kameras schlecht abschneiden, aber unsere Augen schlechter, wo Kameras besser abschneiden. Im Schatten haben wir 20 EVs, während Kameras reduzierte EVs haben. Bei der Helligkeit haben wir ungefähr 10 EVs, aber Kameras haben ihre vollen 12 bis 14 EVs. Die 10^14 ist die Gesamtreichweite, die wir sehen können, wenn sich unsere Augen anpassen, nicht das, was wir zu einem bestimmten Zeitpunkt sehen. Und in dieser Hinsicht sind Kameras auch nicht auf 2^14 beschränkt.
Ja, die Kameras sind auf die Bittiefe Ihres Rohbildes beschränkt. Sie können nicht mehr Bits oder mehr Informationen aus dem Bild erhalten. Ich stimme zu, dass das Bild „sehen“ des Gehirns nicht nur aus einem Schnappschuss des Auges stammt, sondern wir verwenden zwei Augen, die dem Bild im Gehirn viele zusätzliche Informationen hinzufügen. Und in der Ressource, die Sie im zweiten Kommentar erwähnen, sehen Sie den dynamischen Bereich des Auges, der in Potenz von 10 angezeigt wird. Was nur meine Worte bestätigt. Selbst wenn DR nur 12 EV ist, sind es 10^12, was Millionen Millionen sind, verglichen mit 2^14, was 16384 entspricht
@AJHenderson: Wenn die von einer Kamera aufgezeichneten Zahlen linear mit der Lichtstärke variieren, stimmen Bittiefe und Dynamikbereich überein. Die Bildverarbeitung erfordert häufig die Verwendung einer linearen numerischen Darstellung; Während eine Bildspeicherspezifikation so etwas wie U-Law-Codierung verwenden könnte, um einen Dynamikbereich von ungefähr 4000: 1 mit einem 8-Bit-Format zu erreichen, ist mir nichts bekannt, das dies tut.
@AJHenderson: Der nutzbare Dynamikbereich wird durch die Schrittweite zwischen den beiden niedrigsten Werten begrenzt. Wenn sich numerische Werte linear je nach Lichtstärke ändern, müssen die Schrittgrößen über den gesamten Bereich einheitlich sein. Aus praktischer Sicht ist der Unterschied z. B. zwischen 0,3 % und 0,4 % der maximalen Intensität geeignet, viel signifikanter zu sein als der Unterschied zwischen 90 % und 95 %, aber eine lineare Skala, die 0,3 % und 0,5 % unterscheiden könnte, müsste vorhanden sein 49 Zwischenwerte zwischen 90 % und 95 %. Die Verwendung einer nichtlinearen Skala würde dieses Problem vermeiden, aber ...
@AJHenderson: Die Verwendung einer hohen Bittiefe bedeutet nicht, dass man einen großen nützlichen Dynamikbereich hat, aber wenn man ein Signal mit jeweils 8 Bit für Rot, Grün und Blau linear abtastet, beträgt der kleinste erkennbare Unterschied zwischen den Pixelhelligkeiten 1 / 255 der maximalen Helligkeit. Die Umwandlung von Daten in ein nichtlineares 8-Bit- Format würde keinen großen Verlust des Dynamikbereichs bedeuten, aber nichtlineare Daten sind schwieriger zu bearbeiten.
@supercat - ok, ich verstehe, was du sagst. Selbst wenn der Sensor niedriger lesen könnte, kann er das, was er sieht, nicht genau genug beschreiben. Das letzte hat deutlicher gemacht, was du gesagt hast. Somit ist der sinnvolle DR das nächstniedrigere Maß bis zum nächsthöchsten. Sie könnten möglicherweise darüber hinaus spüren, aber Sie hätten nicht die Fähigkeit, sinnvolle Informationen dafür zu speichern.
@RomeoNinov - wo siehst du 10^14? Ich sehe 10 ^ 9, was die statische Reichweite insgesamt ist, nicht die Reichweite, die zu jedem Zeitpunkt sichtbar ist.
@AJHenderson: Ich würde sagen, dass sich für einen geräuschlosen Sensor der sinnvolle Dynamikbereich vom niedrigsten Wert, der vom Sensorminimum unterscheidbar ist, bis zum größten, der vom Sensormaximum unterscheidbar ist, erstreckt. In vielen Fällen liegen diese Werte um eine halbe Einheit über den Nennwerten für die zweitniedrigsten und zweithöchsten Messwerte. Ein Sensor mit richtig geformtem Rauschen kann möglicherweise seinen Dynamikbereich bei niedrigeren Ortsfrequenzen darüber hinaus erweitern, auf Kosten einer Verringerung des Dynamikbereichs bei den höheren Ortsfrequenzen.
Aber selbst ein Sensor, der streng auf, sagen wir, eine DR mit sechs Blendenstufen zu einem beliebigen Zeitpunkt beschränkt ist, kann verwendet werden, um Details von sehr dunklen bis zu sehr hellen Werten in aufeinanderfolgenden Einzelbildern zu messen, indem Tv und Av verändert werden! In Bezug auf die Öffnung ist dies das, was das Auge/Gehirn-System tut.

Sehen ist ein aktiver Prozess

Ein großes Problem ist, dass das Sehen mit den Augen ganz anders ist als das Aufnehmen eines Bildes – ein Bild muss alle Informationen enthalten, die der Betrachter sehen könnte , aber normales Sehen ist ein aktiver Prozess, der eine Bewegung der Augen, eine Neufokussierung und eine entsprechende Erweiterung der Pupillen beinhaltet zu den Objekten, die wir betrachten. Wenn Sie also erfassen möchten, „was das Auge sieht“, müssen Sie im Wesentlichen den Blickwinkel mit allen Einstellungen erfassen, die das Auge möglicherweise verwendet.

Ihre Frage bezieht sich auf den Dynamikbereich, aber das gleiche Problem tritt bei visuellen Details und Fokus auf. Ein „lebensäquivalentes“ Bild benötigt viel, viel mehr Pixel, als Ihr Auge tatsächlich erfassen kann, da die Augenauflösung sehr ungleich ist und Sie mit Ihrer hochauflösenden Mitte der Netzhaut nur einen einzelnen kleinen Fleck betrachten, ein Bild benötigt mehr Details verfügbar, da Sie Ihre Augen bewegen. Filme müssen einen einzigen Fokus wählen, während ein Mensch ein „einzelnes Bild“ mit mehr Tiefe betrachten kann, indem er die Augen schnell neu fokussiert und/oder sie für eine korrekte binokulare Sicht in verschiedenen beabsichtigten Entfernungen bewegt (z. B. auf die Oberfläche eines Fensters oder durch es schaut). ), etc.

Ein Teil der Lösung ist genau das: Wenn Sie eine einzelne Kamera mehrmals schnell (oder mehrere Kameras) verwenden, um eine Vielzahl von Bildern mit unterschiedlichen Einstellungen aufzunehmen und sie anschließend zusammenzuführen, ist HDR das krasseste Beispiel – genau wie unser Auge sieht es aktiv aus an verschiedenen Orten mit unterschiedlichen "Settings", und erst danach fügt Ihr Gehirn alles zu einem zusammenhängenden Bild oder Film zusammen. Die tatsächlichen "Bilder", die unsere Augen aufnehmen, sind schon schlechter als gute Kameras, einfach die gedankliche Kombination davon ist schön.

+1 für Ihren Punkt zum Fokus in Filmen. Dies hängt auch mit einem der Hauptgründe zusammen, warum viele Menschen beim Betrachten von 3D-Filmen Kopfschmerzen bekommen. Das Auge muss sich physisch auf den Bildschirm fokussieren, aber das stereoskopische Bild täuscht das Gehirn vor zu denken, dass einige Teile des Bildschirms näher oder weiter entfernt sind, als sie tatsächlich sind, was zu einer Überanstrengung der Augen führt, wenn Sie versuchen, direkt darauf zu schauen. Studios versuchen, dies zu minimieren, indem sie den Brennpunkt der Szene sowohl im linken als auch im rechten Bild an derselben Stelle anzeigen. Wenn Sie sich also gerne in Hintergrunddetails umsehen, vergessen Sie das Ibuprofen nicht!
Die Tatsache, dass Sehen ein aktiver Prozess ist, ist einer der Gründe, warum wirklich gute Künstler Gemälde schaffen können, die besser aussehen als ein einfaches Foto. Ein einfaches Foto erfasst alles in der Szene mit demselben Blickwinkel, Fokus, Belichtung und Weißabgleich, während sich die Augen einer Person, die die Szene tatsächlich betrachtet, möglicherweise ständig anpassen, wenn sie verschiedene Teile betrachten. Im Gegensatz zu einer Kamera kann ein Maler ein Bild erstellen, bei dem jeder Teil der Szene so aussieht, als würde er für eine Person aussehen, die tatsächlich an diesem Ort war und es betrachtet.

Ihr geistiges Bild ist nicht nur das Produkt der Netzhaut, sondern auch ihres Zusammenspiels mit allen anderen am Sehen beteiligten Komponenten, einschließlich der Pupille und natürlich Ihres Gehirns. Was Ihnen wie ein „ein Bild“ erscheinen mag, ist in Wirklichkeit das Ergebnis einer Hochgeschwindigkeitsanpassung und Informationsverarbeitung und keine einzelne Momentaufnahme.

Weitere Informationen zu diesem Thema finden Sie hier .

Es ist durchaus möglich, einen Lichtsensor mit logarithmischen Eigenschaften herzustellen – ein solcher Sensor hätte einen unglaublichen Dynamikbereich auf Kosten einer begrenzten Auflösung für eine bestimmte Belichtung. Um beides zu erreichen, ist ein hochauflösender ADC erforderlich. Für die CT-Bildgebung werden typischerweise 24 Bit linear verwendet – und dann wird der Logarithmus nach der Offset-Anpassung genommen, um das CT-Bild zu erzeugen.

Ein Sensor, der sowohl die Belichtungssteuerung (Integrationszeit - denken Sie an die Verschlusszeit) übernimmt, kann es besser machen, und wenn Sie Änderungen in der Lichtsammeleffizienz zulassen (denken Sie an die Blendenzahl), erhalten Sie noch mehr Flexibilität.

Der endgültige Dynamikbereich wird normalerweise durch das Ausleserauschen begrenzt – wenn Sie die akkumulierte Ladung ablesen, tritt ein gewisser Fehler auf – im Vergleich zum größten Signal, das die Elektronik unterstützen kann. Wie gesagt – 24 Bit sind in der medizinischen Bildgebung üblich und das ist besser als 1 Teil von 10 Millionen. Das ist ein viel höherer Dynamikbereich als die Netzhaut für eine bestimmte Belichtung. In herkömmlichen Kameras wird es jedoch nicht häufig verwendet, da das Auge diese Details im Bild nicht erkennen kann - und die Auflösung auf Kosten der Geschwindigkeit geht.