Vermeiden Sie zweistellige Umlaute in PDFs

Einführende Erklärung

Ein Umlaut ist ein deutscher Vokal, der in der Schrift als Buchstabe mit zwei Punkten ( Diärese ) über dem Grundvokal dargestellt wird. Beispiele für Umlaute sind ä, ö und ü.

Diese drei Buchstaben können im Text entweder als ein einzelnes Zeichen – beispielsweise ü als Unicode U+00FC – oder als zwei Zeichen dargestellt werden: der Grundvokal (z. B. u, U+0075) und die verbindende Diärese ( ¨, U + 0308 ).

Sowohl der Einzelzeichen- Umlaut als auch der Zweizeichen- Umlaut sehen in einem PDF-Dokument gleich aus, aber ihr zugrunde liegender Code ist unterschiedlich. Diese Animation zeigt Text, der aus derselben (!) PDF-Datei, die in Firefox (oben) und Vorschau (unten) geöffnet wurde, in einen einfachen Texteditor (BBEdit) kopiert und dann einzelne Buchstaben gelöscht wurden:

Geben Sie hier die Bildbeschreibung ein

Wenn der Umlaut als ein Zeichen dargestellt wird und Sie in einem Text nach einem deutschen Wort mit einem Umlaut suchen , z. B. Tür , werden Sie dieses Wort finden, sofern es dort vorkommt. Wenn der Umlaut hingegen zweistellig dargestellt wird und Sie nach Tür suchen , werden Sie ihn nicht finden:

Die Tür ist offen.  <= you will find "Tür" in this text
Die Tu¨r ist offen. <= you will not find "Tür" in this text

Frage

In Apples Preview und Safari, aber auch in der neuesten Version von Adobe Acrobat Reader DC (18.011.20058), werden Umlaute in PDF-Dokumenten als zwei Zeichen (Vokal plus Diärese) dargestellt, während ich im gleichen PDF-Dokument öffne Firefox, Chrome oder eine ältere Version von Adobe Acrobat X Pro (10.1.16) werden sie als einzelnes Zeichen dargestellt.

Warum ist das so und wie vermeide ich zweistellige Umlaute beim Erstellen von PDF-Dokumenten?

Hallo Walter, willkommen bei Ask Different. Wenn Sie schreiben "Wenn der Umlaut dagegen zweistellig dargestellt wird und Sie nach Tür suchen, werden Sie es nicht finden", meinen Sie innerhalb der App (Vorschau, Adobe Reader usw.) oder mit Spotlight oder mit Terminal?
@jaume In der App. Die Suche in Spotlight funktioniert gut (da es nicht die PDF-Datei ist, die die falschen Zeichen enthält).
Wenn ich ü tippe, ist es nur ein Zeichen. Es muss die Anwendung sein, mit der der Test ursprünglich geschrieben wurde, oder vielleicht verstehe ich das gut formulierte Problem nicht. Das ist durchaus möglich. Umlaute, die von meinem Mac erstellt wurden, scheinen ein Zeichen in Beispielen zu sein, die ich ausprobiert habe. Notizen, Textedit, Vorschau und Seiten. Ich weiß nicht einmal, wie man 2-stellige Umlaute erstellt. Hoffe das hilft ein wenig.
@jmh Sie können Umlaute mit zwei Zeichen (und jede Menge ähnliches) erstellen, indem Sie die erweiterte ABC-Tastatur verwenden, um kombinierte diakritische Zeichen zu Basisbuchstaben hinzuzufügen.
Hallo Walter, welche macOS-Version läuft auf deinem Mac? Können Sie ein solches PDF-Dokument auf OneDrive oder Dropbox hochladen und den Link teilen? Ich konnte das Problem nicht mit einem PDF-Dokument reproduzieren.

Antworten (1)

Ob Sie mit 1 oder 2 Zeichen enden, hängt davon ab, wie die Unicode-Normalisierung von den von Ihnen verwendeten Apps und Prozessen angewendet wird.

Ich weiß nicht, ob es eine Möglichkeit gibt, das eine oder andere zu garantieren, außer vielleicht über ein Dienstprogramm wie UnicodeChecker .

Da die beiden Formen äquivalent sind, sollte ein kompetentes Suchsystem beide finden.