Entfernen Sie Markierungen mit dem Stift von einer gescannten Kopie eines Buches

Ich habe eine gescannte Kopie eines Buches, in dem viele Zeilen mit einem Stift unterstrichen sind, es gibt auch Notizen an den Rändern. Ich brauche ein Programm, um diese Markierungen zu entfernen oder den Text ohne Verlust der Formatierung zu extrahieren und als PDF-Dokument zu speichern. Das Buch wurde auf dunklem Papier gedruckt. Mein OS ist Windows 7. Wäre für Empfehlungen sehr dankbar.

Sind die Stiftmarkierungen in der gleichen Farbe wie der eigentliche Text?
Nein, die Markierungen sind dunkelblau und der Text ist schwarz.

Antworten (1)

ImageMagick convertkann im Stapelmodus verwendet werden, um die Stiftmarkierung herauszufiltern und gleichzeitig die Bilder auf Schwarzweiß zu reduzieren (normalerweise sowieso besser für OCR). Ich würde zuerst ein paar typische Bilder und Scans auswählen und testen, um die Filterwerte zu erhalten, die Sie benötigen. GIMP kann verwendet werden, um die Tintenfarbe(n) zu testen, oder Sie können die ImageMagick-Histogrammfunktion verwenden, um sie zu identifizieren.

ImageMagik ist:

  • Kostenlos, Gratis & Open Source.
  • Plattformübergreifend (Windows, Linux & OS-X)
  • Sehr flexibles und leistungsstarkes Befehlszeilen-Bildbearbeitungsprogramm
  • Es kann sogar die Bilder der Seiten zu einer PDF-Datei zusammensetzen.

Die PDF-Datei wird jedoch eine der bereinigten gescannten Bilder sein. Um dies durchsuchbar zu machen, müssen Sie ein OCR-Programm (Optical Character Recognition) auf den bereinigten Bildern ausführen.

OCR ist unterschiedlich erfolgreich, abhängig von der Qualität der Bilder, der verwendeten Schriftart(en), der Anzahl der Diagramme, dem Training des Programms (einige können trainiert werden) und bis zu einem gewissen Grad, wie undurchsichtig der Text ist - Viele OCR-Programme versuchen, basierend auf der Rechtschreibung und dem Kontext zu korrigieren. Wenn Sie beispielsweise Naturwissenschaften, Mathematik oder Psychologie mit OCR versehen, können Sie mit vielen Fehlern rechnen, da viele Terminologien nicht in das englische Standardwörterbuch passen .

Tesseract ist einen Blick wert, um die OCR durchzuführen. Es ist:

  • Kostenlos, Gratis & Open Source.
  • Plattformübergreifend (Windows, Linux & OS-X)
  • Sehr flexibel und leistungsstark
  • Verarbeitet UTF-8-Unicode-Zeichen
  • Kann mehr als 100 Sprachen sofort erkennen
  • Kann als Klartext, hocr(html), pdf, tsv und PDF mit nur unsichtbarem Text ausgegeben werden.
  • Kann trainiert werden, um die Ergebnisse zu verbessern

PS:

Ich muss sagen, dass es in den meisten Fällen angesichts der Zeit und des Aufwands, die für ein umfangreiches Buch erforderlich sind, wahrscheinlich sinnvoll wäre, genug Zeit hinter einer Bar zu verbringen, oder so ziemlich jeden Teilzeitjob mit Mindestlohn, um eine Marke zu kaufen. neues Exemplar desselben Buches, als eBook oder pdf, falls vorhanden, vom Verlag.