Textformatierer, der Grammatik versteht

Ich habe einige PDF-Dokumente, die JPEG enthielten, in ASCII-Text konvertiert.

Leider gibt es viele
Zeilenumbrüche
mitten in
Sätzen, wodurch einige Zeilen nur aus wenigen Wörtern bestehen und der
Text im Allgemeinen schwer lesbar ist.

Gibt es ein
Tool, das den Text neu formatiert , wobei Sätze und Absätze
berücksichtigt werden, die möglicherweise so aufgeteilt werden ? Es sollte die englische Satzstruktur erkennen - dass sie im Allgemeinen mit Punkt, Fragezeichen , Punkt usw. enden







Welche Arten von Satzstrukturen (z. B. Punkt) möchten Sie unterbrechen?
Ich möchte, dass das Programm die Grammatik der englischen Sprache versteht.

Antworten (1)

Sie können dies in den meisten Bearbeitungsprogrammen (Textverarbeitungsprogrammen/Texteditoren) tun, mit denen Sie Absatzmarken oder Zeilenumbrüche suchen/ersetzen können. Hier ist eine Beispielstrategie, die in der Word-Syntax beschrieben ist, wobei ^pein Absatzumbruch ist, vorausgesetzt, es wird nicht zwischen Zeilenumbrüchen und Seitenumbrüchen unterschieden (was bei Textdateien der Fall ist), und in der ich _ für Leerzeichen verwenden werde.

Fügen Sie zuerst zusätzliche Absatzzeichen nach der Satzzeichensetzung ein:

  • Ersetzen .durch.^p
  • Ersetzen ?durch?^p
  • Ersetzen !durch!^p

Führende und nachfolgende Leerzeichen entfernen, so lange wiederholen, bis keine mehr gefunden werden:

  • Ersetzen _^pdurch^p
  • Ersetzen ^p_durch^p

Reduzieren Sie die Anzahl der aufeinanderfolgenden Absatzumbrüche auf höchstens zwei. So lange wiederholen, bis nichts mehr gefunden wird:

  • Ersetzen ^p^p^pdurch^p^p

Zusätzliche Schritte, wenn Sie Sätze zu einem Absatz zusammenfügen möchten:

  • Ersetzen ^p^pdurch $$##$$(oder eine beliebige Zeichenfolge, die nicht in Ihrem Dokument enthalten ist)
  • Ersetzen ^pdurch_
  • Ersetzen $$##$$durch^p

Zusätzliche Bemerkungen:

  • Fügen Sie all dies in ein Tastaturmakro ein, wenn Sie dies in mehreren Dokumenten tun müssen.
  • Vielleicht möchten Sie den Zeilenumbruch auf nur einen Absatz reduzieren. Dann brauchen Sie eine Variation dieser Strategie.
  • Sie können auch reguläre Ausdrücke verwenden, aber ich bin nicht fließend damit.
  • Für diesen zusätzlichen Schritt muss Ihre Software sehr lange Zeilen verarbeiten können, da Sie ein Zwischenergebnis haben, das im Grunde nur eine Zeile ist.
  • Führen Sie dies alles mit Kopien Ihrer Dateien durch, damit Sie ein Backup haben.
So sehr ich ein Programm dafür bevorzugen würde, hatte ich dies in Betracht gezogen, also +1. Ich müsste einen Texteditor verwenden, der Makros zulässt, damit ich diese Sequenz speichern und für viele Dateien wiederholen kann. Glücklicherweise lässt NotePad++ mich das tun.