Ich habe einige PDF-Dokumente, die JPEG enthielten, in ASCII-Text konvertiert.
Leider gibt es viele
Zeilenumbrüche
mitten in
Sätzen, wodurch einige Zeilen nur aus wenigen Wörtern bestehen und der
Text im Allgemeinen schwer lesbar ist.
Gibt es ein
Tool, das den Text neu formatiert , wobei Sätze und Absätze
berücksichtigt werden, die möglicherweise so aufgeteilt werden ? Es sollte die englische Satzstruktur erkennen - dass sie im Allgemeinen mit Punkt, Fragezeichen , Punkt usw. enden
Sie können dies in den meisten Bearbeitungsprogrammen (Textverarbeitungsprogrammen/Texteditoren) tun, mit denen Sie Absatzmarken oder Zeilenumbrüche suchen/ersetzen können. Hier ist eine Beispielstrategie, die in der Word-Syntax beschrieben ist, wobei ^p
ein Absatzumbruch ist, vorausgesetzt, es wird nicht zwischen Zeilenumbrüchen und Seitenumbrüchen unterschieden (was bei Textdateien der Fall ist), und in der ich _ für Leerzeichen verwenden werde.
Fügen Sie zuerst zusätzliche Absatzzeichen nach der Satzzeichensetzung ein:
.
durch.^p
?
durch?^p
!
durch!^p
Führende und nachfolgende Leerzeichen entfernen, so lange wiederholen, bis keine mehr gefunden werden:
_^p
durch^p
^p_
durch^p
Reduzieren Sie die Anzahl der aufeinanderfolgenden Absatzumbrüche auf höchstens zwei. So lange wiederholen, bis nichts mehr gefunden wird:
^p^p^p
durch^p^p
Zusätzliche Schritte, wenn Sie Sätze zu einem Absatz zusammenfügen möchten:
^p^p
durch $$##$$
(oder eine beliebige Zeichenfolge, die nicht in Ihrem Dokument enthalten ist)^p
durch_
$$##$$
durch^p
Zusätzliche Bemerkungen:
Tom
Mawg sagt, Monica wieder einzusetzen