Ein Umlaut ist ein deutscher Vokal, der in der Schrift als Buchstabe mit zwei Punkten ( Diärese ) über dem Grundvokal dargestellt wird. Beispiele für Umlaute sind ä, ö und ü.
Diese drei Buchstaben können im Text entweder als ein einzelnes Zeichen – beispielsweise ü als Unicode U+00FC – oder als zwei Zeichen dargestellt werden: der Grundvokal (z. B. u, U+0075) und die verbindende Diärese ( ¨, U + 0308 ).
Sowohl der Einzelzeichen- Umlaut als auch der Zweizeichen- Umlaut sehen in einem PDF-Dokument gleich aus, aber ihr zugrunde liegender Code ist unterschiedlich. Diese Animation zeigt Text, der aus derselben (!) PDF-Datei, die in Firefox (oben) und Vorschau (unten) geöffnet wurde, in einen einfachen Texteditor (BBEdit) kopiert und dann einzelne Buchstaben gelöscht wurden:
Wenn der Umlaut als ein Zeichen dargestellt wird und Sie in einem Text nach einem deutschen Wort mit einem Umlaut suchen , z. B. Tür , werden Sie dieses Wort finden, sofern es dort vorkommt. Wenn der Umlaut hingegen zweistellig dargestellt wird und Sie nach Tür suchen , werden Sie ihn nicht finden:
Die Tür ist offen. <= you will find "Tür" in this text
Die Tu¨r ist offen. <= you will not find "Tür" in this text
In Apples Preview und Safari, aber auch in der neuesten Version von Adobe Acrobat Reader DC (18.011.20058), werden Umlaute in PDF-Dokumenten als zwei Zeichen (Vokal plus Diärese) dargestellt, während ich im gleichen PDF-Dokument öffne Firefox, Chrome oder eine ältere Version von Adobe Acrobat X Pro (10.1.16) werden sie als einzelnes Zeichen dargestellt.
Warum ist das so und wie vermeide ich zweistellige Umlaute beim Erstellen von PDF-Dokumenten?
Ob Sie mit 1 oder 2 Zeichen enden, hängt davon ab, wie die Unicode-Normalisierung von den von Ihnen verwendeten Apps und Prozessen angewendet wird.
Ich weiß nicht, ob es eine Möglichkeit gibt, das eine oder andere zu garantieren, außer vielleicht über ein Dienstprogramm wie UnicodeChecker .
Da die beiden Formen äquivalent sind, sollte ein kompetentes Suchsystem beide finden.
Jaume
Walter T
Natsfan
Tom Gewecke
Jaume