Warum haben wir noch keine High-Dynamic-Range-Sensoren, die in jedem Teil eines Bildes die richtige Belichtung haben?
Es gibt bereits Kameras mit DR, die sowohl sofort als auch insgesamt größer als das menschliche Auge sind. Der Dynamikbereich des menschlichen Auges ist nicht so groß, wie die meisten Leute denken. Soweit ich mich erinnere, liegt es irgendwo bei 12 bis 16 EVs, was ungefähr dem Niveau einer modernen DSLR entspricht.
Der Hauptunterschied besteht darin, dass wir eine extrem natürliche Blendensteuerung haben, die sich an verschiedene Teile des Bildes anpasst. Tatsächlich erledigt unser Gehirn das Stapeln von Bildern automatisch für uns. Wenn wir den hellen Teil einer Szene betrachten, verkleinern sich unsere Pupillen und wir sehen die Details des hellen Teils. Wenn wir unseren Fokus auf den dunkleren Teil verschieben, öffnen sich unsere Pupillen schnell und wir sehen die Details des dunklen Teils. Unser Gehirn weiß, wie der vorherige Teil aussah, und daher bemerken wir die Veränderung in unserem peripheren Sehen nicht, aber wir sehen tatsächlich nicht mehr so viele Details, wo wir nicht mehr fokussiert sind.
In ähnlicher Weise gibt es selbst für den gesamten Bereich des menschlichen Sehvermögens spezialisierte Kameras, die viel dunkler werden können als wir und immer noch sehen, insbesondere Farben. Sie sind derzeit einfach zu teuer, um sie für die breite Öffentlichkeit herzustellen, da sie sehr hochwertige Materialien und Konstruktionen erfordern Holen Sie sich das Grundrauschen super niedrig. Es gibt auch Sensoren, die in der Lage sind, sehr helle Objekte zu betrachten, deren Betrachtung für Menschen schmerzhaft wäre.
Ein großes Problem ist, dass das Sehen mit den Augen ganz anders ist als das Aufnehmen eines Bildes – ein Bild muss alle Informationen enthalten, die der Betrachter sehen könnte , aber normales Sehen ist ein aktiver Prozess, der eine Bewegung der Augen, eine Neufokussierung und eine entsprechende Erweiterung der Pupillen beinhaltet zu den Objekten, die wir betrachten. Wenn Sie also erfassen möchten, „was das Auge sieht“, müssen Sie im Wesentlichen den Blickwinkel mit allen Einstellungen erfassen, die das Auge möglicherweise verwendet.
Ihre Frage bezieht sich auf den Dynamikbereich, aber das gleiche Problem tritt bei visuellen Details und Fokus auf. Ein „lebensäquivalentes“ Bild benötigt viel, viel mehr Pixel, als Ihr Auge tatsächlich erfassen kann, da die Augenauflösung sehr ungleich ist und Sie mit Ihrer hochauflösenden Mitte der Netzhaut nur einen einzelnen kleinen Fleck betrachten, ein Bild benötigt mehr Details verfügbar, da Sie Ihre Augen bewegen. Filme müssen einen einzigen Fokus wählen, während ein Mensch ein „einzelnes Bild“ mit mehr Tiefe betrachten kann, indem er die Augen schnell neu fokussiert und/oder sie für eine korrekte binokulare Sicht in verschiedenen beabsichtigten Entfernungen bewegt (z. B. auf die Oberfläche eines Fensters oder durch es schaut). ), etc.
Ein Teil der Lösung ist genau das: Wenn Sie eine einzelne Kamera mehrmals schnell (oder mehrere Kameras) verwenden, um eine Vielzahl von Bildern mit unterschiedlichen Einstellungen aufzunehmen und sie anschließend zusammenzuführen, ist HDR das krasseste Beispiel – genau wie unser Auge sieht es aktiv aus an verschiedenen Orten mit unterschiedlichen "Settings", und erst danach fügt Ihr Gehirn alles zu einem zusammenhängenden Bild oder Film zusammen. Die tatsächlichen "Bilder", die unsere Augen aufnehmen, sind schon schlechter als gute Kameras, einfach die gedankliche Kombination davon ist schön.
Ihr geistiges Bild ist nicht nur das Produkt der Netzhaut, sondern auch ihres Zusammenspiels mit allen anderen am Sehen beteiligten Komponenten, einschließlich der Pupille und natürlich Ihres Gehirns. Was Ihnen wie ein „ein Bild“ erscheinen mag, ist in Wirklichkeit das Ergebnis einer Hochgeschwindigkeitsanpassung und Informationsverarbeitung und keine einzelne Momentaufnahme.
Weitere Informationen zu diesem Thema finden Sie hier .
Es ist durchaus möglich, einen Lichtsensor mit logarithmischen Eigenschaften herzustellen – ein solcher Sensor hätte einen unglaublichen Dynamikbereich auf Kosten einer begrenzten Auflösung für eine bestimmte Belichtung. Um beides zu erreichen, ist ein hochauflösender ADC erforderlich. Für die CT-Bildgebung werden typischerweise 24 Bit linear verwendet – und dann wird der Logarithmus nach der Offset-Anpassung genommen, um das CT-Bild zu erzeugen.
Ein Sensor, der sowohl die Belichtungssteuerung (Integrationszeit - denken Sie an die Verschlusszeit) übernimmt, kann es besser machen, und wenn Sie Änderungen in der Lichtsammeleffizienz zulassen (denken Sie an die Blendenzahl), erhalten Sie noch mehr Flexibilität.
Der endgültige Dynamikbereich wird normalerweise durch das Ausleserauschen begrenzt – wenn Sie die akkumulierte Ladung ablesen, tritt ein gewisser Fehler auf – im Vergleich zum größten Signal, das die Elektronik unterstützen kann. Wie gesagt – 24 Bit sind in der medizinischen Bildgebung üblich und das ist besser als 1 Teil von 10 Millionen. Das ist ein viel höherer Dynamikbereich als die Netzhaut für eine bestimmte Belichtung. In herkömmlichen Kameras wird es jedoch nicht häufig verwendet, da das Auge diese Details im Bild nicht erkennen kann - und die Auflösung auf Kosten der Geschwindigkeit geht.
mivilar
TFuto