Warum erfassen Kameras keinen Dynamikbereich wie unsere Augen?

Wenn ich in einem Raum ohne Licht sitze und aus dem Fenster schaue, kann ich leicht das Innere des Raums sehen, selbst wenn ich mich auf einen Baum draußen konzentriere.

Warum kann eine Kamera kein ähnliches Bild aufnehmen wie das, was meine Augen sehen können? Ich würde denken, dass neuere Kameras in der Lage sein sollten, diesen großen Dynamikbereich problemlos zu erfassen. Ich glaube nicht, dass die Anzeige ein Problem darstellt, wenn so viel Dynamikbereich erfasst wird, da er normalisiert werden kann. In einer Digitalkamera muss ich die Belichtung einstellen, die nur die Außenszene oder die Innenszene korrekt erfasst.

Tritt das Problem nur bei Digitalkameras auf oder auch bei Filmkameras?

Eine ähnliche Frage wird hier bereits diskutiert . Wie nehme ich die Szene genau so auf, wie ich sie sehen kann? . Ich spreche nicht von Auflösung, Fokussierung oder Detail. Ich interessiere mich für die Belichtung oder den Dynamikbereich, ähnlich wie wenn wir unsere Augen auf eine einzelne Szene richten.

Ich verstehe nicht, warum Sie sagen: "Neuere Kameras sollten in der Lage sein, so viel Dynamikbereich problemlos zu erfassen". Sie basieren auf einer völlig anderen Technologie als unsere Augen, daher verstehe ich wirklich nicht, warum Sie erwarten, dass sie ähnliche Eigenschaften haben.
Ist es also der gesamte Dynamikbereich, der das meiste Problem verursacht?
Ich denke an ein Experiment, mache die Szene mit einem Objektiv auf ein Papier und halte sie dann mit der Kamera fest. Es sollte den Dynamikbereich normalisieren.
Besuchen Sie jvsc.jst.go.jp/find/mindlab/english/index.html , um interaktiv zu sehen, wie Sie vom Gehirn getäuscht werden ;)
Kameras können . Film hat eine "Schulter", die dem Auge ähnelt. Digital kann große/kleine Sensoren gepaart haben, um einen erweiterten Dynamikbereich zu erfassen. Software kann dies kombinieren und selbst auf heutigen Monitoren eine Anzeige erzeugen, die das widerspiegelt, was Ihr Gehirn bei direkter Betrachtung des Bildes registrieren würde.
@Stormenet: Das ist ein verdammt guter Link!

Antworten (9)

Der Grund, warum Sie einen so großen Dynamikbereich sehen können, ist nicht, dass das Auge als optisches Gerät einen solchen Bereich tatsächlich erfassen kann - der Grund ist, dass Ihr Gehirn Informationen aus vielen, vielen "Belichtungen" von den Augen und kombinieren kann Erstellen Sie ein HDR-Panorama der Szene vor Ihnen.

Das Auge ist vom Standpunkt der Bildqualität ziemlich schlecht, aber es hat eine sehr hohe "Bildrate" und kann Empfindlichkeit, Richtung und Fokus sehr schnell ändern.

Das Gehirn nimmt all diese Bilder aus dem Auge und erstellt das Bild, von dem Sie glauben, dass Sie es sehen – dies umfasst Details aus Bildern mit unterschiedlicher Empfindlichkeit und sogar Details, die vollständig auf der Grundlage dessen, was Sie zu sehen erwartet haben, erstellt wurden. (Dies ist einer der Gründe, warum es optische Täuschungen gibt – das Gehirn kann dazu verleitet werden, Dinge zu „sehen“, die nicht wirklich da sind).

Sie können also mit Ihrer Kamera genau wie mit Ihrem Auge sehen, machen Sie einfach viele Aufnahmen mit verschiedenen Einstellungen, laden Sie dann alles in Photoshop, erstellen Sie ein HDR-Panorama und verwenden Sie "Content Aware Fill", um die Lücken zu füllen.

Übrigens, warum "sollten" Kameras diesen Bereich erfassen können, aber Monitore sollten ihn nicht reproduzieren können? Wenn es eine nicht existierende Technologie geben sollte, sollten Monitore alles reproduzieren können, was wir sehen können (und ich sollte in der Lage sein, in einem Hotel mit geringer Schwerkraft auf dem Mond Urlaub zu machen).

Sie haben mich mit einer nahezu identischen Antwort um etwa 4 Minuten geschlagen!

Sie haben vielleicht einen leichten Vorteil im Dynamikbereich des Sensors gegenüber einer Kamera, aber der größte Unterschied besteht in einem ausgeklügelten automatischen Belichtungssystem, Sakkaden , HDR-Verarbeitung und einem Szenenerkennungssystem, das über mehrere Belichtungen hinweg bestehen bleibt . Das menschliche Gehirn ist für das visuelle System mindestens so wichtig wie das Auge .

Bei einer Szene mit einem sehr hohen Dynamikbereich benötigt das menschliche visuelle System einige Zeit, um sich anzupassen. Das liegt nicht daran, dass wir eine Dynamikbereichseinstellung anpassen müssen, sondern daran, dass wir die sehr hellen und die sehr dunklen Teile der Szene separat analysieren und dann die wichtigen Teile des Bildes zusammenkleben müssen. Sehr viel von dem, was wir „sehen“, hängt tatsächlich davon ab, dass wir bereits wissen, was da ist; Wir können sehr wenige Hinweise auf echte Details verwenden, um die Lücken zu füllen (und wenn wir nicht genügend echte Informationen haben, können wir interpolieren – aber nicht immer korrekt ).

Um eine Kamera – egal welche Kamera – auf diesem Niveau betreiben zu können, muss ein System entwickelt werden, das „weiß“, was es betrachtet. Wir können die "dumme" Version davon bereits mit verschiedenen HDR-Techniken erstellen (in Ihrem speziellen Beispiel normalerweise durch einfache Maskierung, bei der die Tür aus der Dunkelheitsbelichtung herausgeschnitten und eine Version aus der hellen Belichtung an ihrer Stelle eingefügt wird). Aktuelle automatisierte Prozesse basieren ausschließlich auf der Helligkeit (da sie nicht auf Bedeutung oder Wichtigkeit analysieren können) und neigen dazu, offensichtliche Artefakte zu erzeugen. Und wenn Sie jemals ein rohes 32-Bit-HDR-kombiniertes Bild gesehen haben, das noch nicht tonemappt wurde (was im Wesentlichen die Art von Dingen ist, die Sie nur durch Erhöhen des Dynamikbereichs des Sensors erhalten würden), haben Sie es wahrscheinlich bemerkt dass das Bild sehr "flach" ist und sowohl lokalen als auch globalen Kontrast vermissen lässt. Das Wissen um die Szene ermöglicht es uns, das Mapping durchzuführen und zu entscheiden, wo der Kontrast lokal wichtig ist. Bis die Kamera die gleichen Entscheidungen treffen kann, wird sie kein Bild erzeugen können, das dem entspricht, was Ihr Gehirn sieht.

Es hat damit zu tun, wie das Gehirn die von den Augen bereitgestellten Informationen interpretiert (oder anders ausgedrückt, es ist die Software, nicht die Hardware).

Farben und Details sehen wir nur in einem sehr schmalen Feld im Zentrum unseres Sehvermögens. Um das detaillierte bunte Bild aufzubauen, das wir wahrnehmen, bewegt das Gehirn diesen zentralen Punkt, ohne dass wir es wissen.

Ich bin kein Neurobiologe, aber es liegt nahe, dass das Gehirn, da es dieses breitere Bild aus vielen winzigen Schnappschüssen erstellt, auch eine gewisse Normalisierung der Helligkeit vornimmt, was zu einem Bild führt, das überall ungefähr gleich hell erscheint, obwohl einige Bereiche viel sind in Wirklichkeit heller. Grundsätzlich ist die Fähigkeit, dunkle und helle Dinge gleichzeitig zu sehen, eine Illusion.

Es gibt keinen Grund, warum dieses Verhalten nicht von Digitalkameras nachgeahmt werden kann, noch gibt es einen Grund, warum wir Sensoren nicht mit einem viel größeren Dynamikbereich in einer einzigen Belichtung ausstatten können. Tatsächlich hat Fuji einen Sensor mit Fotoseiten mit besonders niedriger Empfindlichkeit hergestellt, um zusätzliche Glanzlichtdetails zu erfassen.

Das Problem liegt in der Unfähigkeit, Bilder mit hohem Dynamikbereich anzuzeigen. Um solche Bilder auf einem Standardmonitor mit niedrigem Dynamikbereich anzuzeigen, müssen Sie eine spezielle Verarbeitung namens Tonemapping durchführen, die ihre eigenen Nachteile hat. Für die meisten Verbraucher wären High-Dynamic-Range-Kameras einfach umständlicher.

Zusammenfassung:

  • Gott hat unsere Augen gemacht.

  • Wir machen Kameras.

  • Wir haben Gott noch nicht eingeholt.

  • ABER die beste verfügbare Kamera entspricht ungefähr den von Ihnen beschriebenen Anforderungen.

  • Es gibt Wege, das zu erreichen, was Sie wollen. Sie haben sich einfach entschieden, sie als nicht das zu definieren, was Sie wollen. Das ist deine Wahl.

Die Lichtstärke in einem abgedunkelten Raum mit offenem Fenster zur Außenszene kann nur etwa 0,1 Lux (0,1 Lumen pro Quadratmeter) betragen. Die Lichtstärke der Außenszene kann in der von Ihnen beschriebenen Situation zwischen 10 und Tausend Lux ​​liegen.

Bei 100 Lux extern und 0,1 Lux intern beträgt das Verhältnis 1000:1 oder knapp 10 Bit Dynamikbereich. Viele moderne Kameras können Tonunterschiede an beiden Enden dieses Bereichs unterscheiden, wenn sie richtig eingestellt sind. Wenn der Lichtpegel des Baums den Sensor gerade sättigte, hätten Sie im Raum etwa 4 Pegelbits zur Verfügung = 16 Beleuchtungspegel. Sie könnten also ein gewisses Maß an Details mit der hellsten Stufe sehen, AUSSER DASS die Lichtstärke so niedrig ist, dass die Augen Probleme damit haben würden.

Wenn die Baumbeleuchtung 1000 Lux (= 1 % des vollen Sonnenlichts) beträgt, benötigen Sie etwa 13 Bit Dynamikbereich. Die allerbesten verfügbaren 35-mm-Vollbildkameras würden dies bewältigen. Die Kameraeinstellung müsste punktgenau sein und Sie hätten ungefähr null tonale Informationen im Raum. Dieses Maß an externer Beleuchtung ist höher als in einer anderen Situation als bei Flutlicht in der Nacht.

Viele moderne DSLRs der mittleren bis oberen Preisklasse verfügen über eine integrierte HDR-Verarbeitung, die es ermöglicht, durch die Kombination mehrerer Bilder weitaus größere Dynamikbereiche zu erzielen. Sogar ein 2-Bild-HDR-Foto würde Ihre Szene problemlos aufnehmen. Meine Sony A77 bietet bis zu +/- 6 EV 3 Frame HDR. Das ergibt weit über 20 Bit Dynamikbereich - was in Ihrem Beispiel sehr angemessene tonale Variationen am oberen und unteren Ende ermöglicht.

Alternativ könnte man sagen, dass die Evolution unseren Ingenieuren fünfhundert Millionen Jahre voraus war, und es wäre unvernünftig zu erwarten, dass wir das in einer Weile einholen werden :)
Das ist ein bisschen theologisch...
Ich glaube nicht, dass dies die Frage beantwortet – es heißt nur „weil Augen besser sind“. Okay. Wie erreichen sie das?
Unsere Ingenieure haben es geschafft, ein Auge zu entwickeln, das eine höhere Bildwiederholrate und eine viel höhere Auflösung hat, in Infrarot und Ultraviolett sehen kann und keinen blinden Fleck hat. Diese Frage zeigt, dass das Auge tatsächlich etwa die Hälfte der statischen DR moderner Kameras hat. Mein Telefon hat auch automatisches HDR. Ich glaube, wir haben gerade aufgeholt.
@naught101 - "aufgeholt" ist eine ziemlich fein nuancierte Maßnahme :-). Das Auge an sich ist dem Besten, was wir handhaben können, in vielerlei Hinsicht etwas unterlegen. Aber es schafft immer noch einige erstaunliche Kunststücke. zB kann das dunkeladaptierte Auge ein einzelnes Photon erkennen! Was den Anwärtern das Leben jedoch furchtbar schwer macht, ist, dass das Auge nicht nur Teil eines integrierten Multiorgansystems ist - und das Gehirn bisher einige Schläge einstecken muss.
@mattdm - Es heißt eigentlich "Unsere Augen sind in der beschriebenen Situation ungefähr so ​​​​gut wie die Kamera".
@RowlandShaw - nur wenn Sie es so wünschen. Andere boten eine ihrem eigenen Weltbild angemessene Übersetzung davon an. Eine solche Aussage kann eine Metapher für alles sein, was Sie wollen (Cthulu, FSM, Ever-looshin, ...) oder nicht.

Besteht das Problem nur bei Digitalkameras oder bei Filmkameras?

Keine der Antworten hat dies bisher berührt, zumindest direkt ... ja, es ist auch ein großes Problem mit Film. Der berühmte Farbdiafilm Fuji Velvia zum Beispiel hat einen wirklich miesen Dynamikbereich (allerdings großartige Farbe!). Transparenzfilme im Allgemeinen leiden darunter. Andererseits können Negativfilme einen sehr guten Dynamikumfang haben, etwa so gut wie die besten aktuellen Digitalkameras. Es wird jedoch etwas anders gehandhabt - während Digital eine lineare Reaktion auf Licht hat, hat Film tendenziell eine ausgeprägte "S" -Kontrastkurve eingebaut. Die Schwarzen und Fast-Schwarzen sowie Weißen und Fast-Weißen sind stärker gebündelt als die Mitteltöne.

Denken Sie daran, dass Filmfotos im Allgemeinen mit Tinte auf weißem Papierhintergrund gedruckt werden, es gibt eine nicht zu großzügige Grenze für den Dynamikbereich, den Sie überhaupt erfassen möchten! Sagen wir mal, einen Dynamikumfang von dreißig Blendenstufen zu erfassen und ihn dann an einen ... auszugeben, was ist überhaupt der Baseballstadion DR eines fotografischen Drucks? Fünf Stationen? Sechs? ...das Ausgabemedium würde ... gelinde gesagt seltsam aussehen. Ich vermute, dass dieser Faktor mehr als irgendwelche unüberwindbaren Hürden bei der Chemie ist, die den dynamischen Bereich des fotografischen Films begrenzt. Es ist nicht so sehr, dass wir es nicht können, sondern dass wir es aktiv nicht wollen .

Genug Zeug, um ein Buch zu füllen - aber der einfache Kern davon ist, dass menschliche Augen Helligkeit logarithmisch sehen, während Kameras Helligkeit linear "sehen".

Wenn Sie also einen Zustand annehmen, in dem die Helligkeit von 1 bis 10000 (zufällig gewählte Zahl) geht, würde das menschliche Auge die Helligkeit in logarithmischer Basis 10 als 0 bis 5 sehen, während die Kamera sie linear als 1 bis 10000 sieht. Gebäude Ein Sensor, der einen so großen Bereich abdecken kann, ist schwierig, da Rauschen bei niedrigen Messungen und Overspill bei Messungen mit höherer Helligkeit stört. Abgesehen davon glaube ich, dass es eine RED-Kamera gibt, die 18 Stufen des Dynamikbereichs aufzeichnen kann - ich bin mir jedoch nicht sicher, ob es sich nur um einen Prototyp oder ein Serienmodell handelt.

Übrigens ist der logarithmische vs. lineare Unterschied auch der Grund dafür, dass sich die Helligkeit pro einer Stufe verdoppelt oder halbiert.

Aber das reicht für ein Forschungsthema - deshalb nur ein kleiner Hinweis.

Dieser logarithmische Effekt im menschlichen Auge flacht den Dynamikbereich ab und das Gehirn kommt damit zurecht, weil es sein ganzes Leben lang nur so vorgegangen ist. Wenn die Kamera auch den Dynamikbereich abflachen würde, würden Sie beim Betrachten des Ergebnisses eine doppelte Abflachung erhalten, und Ihr Gehirn ist nur an eine einfache Abflachung gewöhnt. Wenn Sie die Welt mit einem Gerät sehen würden, das dies tut, und Sie die Ansicht tagelang fortsetzen würden, würden Sie sich wie gewohnt daran gewöhnen. Entfernen Sie das Gerät danach und die Welt würde hart und übermäßig kontrastreich aussehen.
@Skaperen Ich glaube nicht, dass ich unbedingt einen Logarithmus nennen würde, der den Dynamikbereich abflacht. Wenn Sie die Helligkeit in einem Vergleich nebeneinander logarithmisch und linear skalieren, mag der logarithmische Vergleich flacher erscheinen, ABER die Frage ist, wie viele Dezimalstellen wir sehen. Technisch gesehen würden beide Bilder immer noch die gleichen Informationen enthalten, nur in unterschiedlichen Maßstäben - und das Skalieren ändert die enthaltenen Informationen nicht, solange Sie keine Rundungsfehler machen.

Das Auge erfasst keinen Dynamikbereich. Es komprimiert den Dynamikbereich, und dann erzeugt die "Nachbearbeitung" im Gehirn die Illusion eines Dynamikbereichs. Ein komprimierter Dynamikbereich sorgt dafür, dass Sie gleichzeitig in Schatten und beleuchtete Bereiche sehen können. Die „Verstärkung“ wird sozusagen in den Teilen der Netzhaut, die die Schatten wahrnimmt, automatisch hochgedreht, wodurch sie heller werden, und reduziert, wo die Netzhaut beleuchtete Bereiche sieht. Das Gehirn weiß immer noch, dass es in einen Schatten schaut, also erzeugt es das Gefühl, dass es dort dunkel ist. Es findet sozusagen eine Art Expansion über die komprimierten Daten statt, sodass Sie nicht bemerken, dass der Dynamikbereich komprimiert wurde.

Die Sensoren in Digitalkameras könnten die Netzhaut im rohen Dynamikbereich leicht übertreffen. Das Problem ist, dass Sie die Belichtung nicht pro Bereich steuern können. Kameras haben Verstärkungseinstellungen (in der Filmterminologie normalerweise als ISO-Einstellungen bezeichnet), die global sind.

Was das Auge sozusagen macht, ist so etwas wie „ISO 100“ für einen hellen Bereich und „ISO 800“ für einen dunklen Bereich gleichzeitig zu verwenden.

Wenn die Kamera die Verstärkung für bestimmte Pixelbereiche basierend auf der Helligkeit anpassen könnte, wäre das zweifellos nützlich, aber wir wissen von der Anwendung solcher Gain-Leveling-Effekte in der Nachbearbeitung, dass das Gehirn nicht wirklich von ihnen getäuscht wird. Es sieht nicht natürlich aus. Es sieht nur natürlich aus, wenn Ihr eigenes Auge es in Koordination mit Ihrem eigenen Gehirn tut.

Dies ist eine interessante Frage, wenn Sie ihr eine Chance geben, anstatt die offensichtlichen Gründe zu nennen, warum Kameras bereits so hergestellt werden, wie sie hergestellt werden.

Betrachten wir die nächste Option. Tone Mapping ist eine Methode, bei der ein Tiefpassfilter auf die Exponentenwerte des RGBe-Bildes angewendet wird. Das spielt eine große Rolle dabei, wie Augen etwas sehen. Aber bedenken wir, dass unsere Augen lange Bilderströme aufnehmen. Sie funktionieren eher wie Videokameras als Fotokameras.

Das Tone-Mapping könnte erheblich verbessert werden, wenn es wie ein GLSL-Shader aufgebaut wäre, der in Echtzeit mit einer spezialisierten Videokamera lief, die einen konstanten Strom von HDR-Bildern aufnehmen könnte.

In einem viel vereinfachteren Beispiel sind die „HDR“-Fotos des iPhones Zusammensetzungen aus einem Bild mit niedriger und hoher Belichtung, das durch einen Tone-Mapping-Prozess geschoben wird, der ziemlich gut funktioniert, wenn Sie es nicht ausprobiert haben. Viele andere Consumer-Kameras machen ähnliche Dinge.

Es gibt auch das faszinierende Thema, wie Intuition/Absicht/freier Wille dazu beitragen, wie Ihre Augen entlang des Stroms der Zeit kalibriert werden. Wenn Sie auf eine dunkle Wand schauen und daran denken, Ihren Kopf in Richtung eines hell erleuchteten Fensters zu drehen, kann Ihr Gehirn Ihren Augen sagen, dass Sie fortfahren und Ihre Pupillen schließen sollen. Eine Kamera mit automatischer Belichtung kann das Gleiche tun, aber erst, wenn zu viel Licht einfällt. Menschen, die im Kino arbeiten, verbringen viel Zeit damit, das Timing der Filmkameraeinstellungen reibungslos zu gestalten, damit sie sich in einer komplizierten Aufnahme natürlich anfühlen (oder eine Szene so beleuchten, dass die Einstellungen der Kameras nicht wirklich angepasst werden müssen) Aber noch einmal, der einzige Grund, warum solche Dinge funktionieren, ist, dass der Regisseur weiß, was mit der Kamera passieren wird, bevor es passiert.

Das größte Problem wäre die Wiedergabe des aufgenommenen Bildes.

Es ist nicht außerhalb des Bereichs der Technologie, einen Bildsensor und eine Konfiguration zu entwickeln, die eine extrem große Bandbreite an Helligkeitsstufen in einem einzigen Bild erfassen würden. Am Ende ist es nur eine Frage der Photonenzählung, einer Technologie, die auf die erforderlichen Ebenen skaliert. Aktuelle Kameras verwenden hauptsächlich Belichtungseinstellungen, um die Helligkeit zu modulieren, die der Sensor sieht, obwohl mehr von dieser Arbeit im Sensor erledigt werden könnte , was möglicherweise zu größerem Fehlerrauschen führt, aber Sie könnten sicherlich einen größeren Bereich aus einem Fotosensor herausholen als was derzeit auf dem Markt erhältlich ist.

Aber das Problem ist folgendes: Wenn Sie dieses Bild haben, was machen Sie damit ? Selbst High-End-Displays verwenden immer noch 24-Bit-Farben, was bedeutet, dass nur 256 Schattierungen pro Farbkanal zulässig sind. Aktuelle Drucker sind ähnlich eingeschränkt, wenn nicht noch mehr. Mit einem solchen Bild könnte also eigentlich nichts gemacht werden , ohne zuerst die Reichweite auf das zu reduzieren, was vorhandene Kameras produzieren.

Sie haben dieses Problem wahrscheinlich schon einmal gesehen: Die meisten aktuellen RAW-Formate speichern bereits einen größeren Bereich, als reproduziert werden kann, und der Farbbereich muss bereits komprimiert oder beschnitten werden, bevor Sie das Bild betrachten können. Das Hinzufügen von noch mehr Reichweite zur RAW-Ausgabe wäre nur mehr vom Gleichen. Die Kamera wäre wahrscheinlich erheblich teurer, aber die Bilder wären nicht wesentlich besser, da Sie den Bereich immer noch auf 24-Bit-Farbe reduzieren müssen, bevor Sie sie betrachten können.

Dennoch, vielleicht können Sie mit der richtigen Software und der richtigen Art von Benutzern etwas Wunderbares daraus machen. Es wäre wahrscheinlich nicht sehr anders als die aktuelle HDR-Fotografie, aber Sie müssten nicht mehrere Bilder aufnehmen.

Es sind nicht die Bits pro Farbe, die das Problem sind – sie definieren die Anzahl der unterschiedlichen Farbtöne, sagen aber nichts über die Gesamtpalette aus.
@mattdm wahr; aber die Gesamtreichweite ist eine Funktion des Ausgabegeräts, unabhängig von den Bilddaten selbst. Die Helligkeit und das Kontrastverhältnis auf meinem Display sind eine Funktion und nur für mein Display bekannt und werden nicht von der Kamera beeinflusst, mit der ich das Bild gemacht habe. Auch hier sind Ausgabegeräte der limitierende Faktor, nicht Kameras. Die Bits pro Farbe beeinflussen jedoch den Bereich in dem Sinne, dass Sie durch Erhöhen Ihres Bereichs ohne Erhöhen der Anzahl der Ebenen innerhalb des Bereichs nur ein helleres/dunkleres Bild erhalten, ohne dass Sie mehr darin sehen können.