Entfernen Sie Markierungen mit dem Stift von einer gescannten Kopie eines Buches

Question

Entfernen Sie Markierungen mit dem Stift von einer gescannten Kopie eines Buches

okr
Fenster
Software
Bildbearbeiter

Schwarz

Ich habe eine gescannte Kopie eines Buches, in dem viele Zeilen mit einem Stift unterstrichen sind, es gibt auch Notizen an den Rändern. Ich brauche ein Programm, um diese Markierungen zu entfernen oder den Text ohne Verlust der Formatierung zu extrahieren und als PDF-Dokument zu speichern. Das Buch wurde auf dunklem Papier gedruckt. Mein OS ist Windows 7. Wäre für Empfehlungen sehr dankbar.

Steve Barnes

Sind die Stiftmarkierungen in der gleichen Farbe wie der eigentliche Text?

Schwarz

Nein, die Markierungen sind dunkelblau und der Text ist schwarz.

Antworten (1)

Entfernen Sie Markierungen mit dem Stift von einer gescannten Kopie eines Buches

Sind die Stiftmarkierungen in der gleichen Farbe wie der eigentliche Text?
Nein, die Markierungen sind dunkelblau und der Text ist schwarz.

Steve Barnes · Answer 1

ImageMagick convertkann im Stapelmodus verwendet werden, um die Stiftmarkierung herauszufiltern und gleichzeitig die Bilder auf Schwarzweiß zu reduzieren (normalerweise sowieso besser für OCR). Ich würde zuerst ein paar typische Bilder und Scans auswählen und testen, um die Filterwerte zu erhalten, die Sie benötigen. GIMP kann verwendet werden, um die Tintenfarbe(n) zu testen, oder Sie können die ImageMagick-Histogrammfunktion verwenden, um sie zu identifizieren.

ImageMagik ist:

Kostenlos, Gratis & Open Source.
Plattformübergreifend (Windows, Linux & OS-X)
Sehr flexibles und leistungsstarkes Befehlszeilen-Bildbearbeitungsprogramm
Es kann sogar die Bilder der Seiten zu einer PDF-Datei zusammensetzen.

Die PDF-Datei wird jedoch eine der bereinigten gescannten Bilder sein. Um dies durchsuchbar zu machen, müssen Sie ein OCR-Programm (Optical Character Recognition) auf den bereinigten Bildern ausführen.

OCR ist unterschiedlich erfolgreich, abhängig von der Qualität der Bilder, der verwendeten Schriftart(en), der Anzahl der Diagramme, dem Training des Programms (einige können trainiert werden) und bis zu einem gewissen Grad, wie undurchsichtig der Text ist - Viele OCR-Programme versuchen, basierend auf der Rechtschreibung und dem Kontext zu korrigieren. Wenn Sie beispielsweise Naturwissenschaften, Mathematik oder Psychologie mit OCR versehen, können Sie mit vielen Fehlern rechnen, da viele Terminologien nicht in das englische Standardwörterbuch passen .

Tesseract ist einen Blick wert, um die OCR durchzuführen. Es ist:

Kostenlos, Gratis & Open Source.
Plattformübergreifend (Windows, Linux & OS-X)
Sehr flexibel und leistungsstark
Verarbeitet UTF-8-Unicode-Zeichen
Kann mehr als 100 Sprachen sofort erkennen
Kann als Klartext, hocr(html), pdf, tsv und PDF mit nur unsichtbarem Text ausgegeben werden.
Kann trainiert werden, um die Ergebnisse zu verbessern

PS:

Ich muss sagen, dass es in den meisten Fällen angesichts der Zeit und des Aufwands, die für ein umfangreiches Buch erforderlich sind, wahrscheinlich sinnvoll wäre, genug Zeit hinter einer Bar zu verbringen, oder so ziemlich jeden Teilzeitjob mit Mindestlohn, um eine Marke zu kaufen. neues Exemplar desselben Buches, als eBook oder pdf, falls vorhanden, vom Verlag.

Entfernen Sie Markierungen mit dem Stift von einer gescannten Kopie eines Buches

Schwarz

Steve Barnes

Schwarz

Antworten (1)

Steve Barnes

PS:

Photoshop Express-Alternative

Fotoeditor: Mehrere Bilder zusammenfügen

Windows-Software zum automatischen Beschneiden von Rändern von Fotos von Dokumenten

Kostenloser Fotoeditor für Windows

OCR-Tool für Bilder unter Windows [Duplikat]

Software für die Massenbildbearbeitung

Tool zur Indexierung, Bearbeitung und allgemeinen Verwaltung digitalisierter Dokumente

Kostenloser Foto- / Bildeditor mit Ebenen und bearbeitbarem Text als Ebenen

Bildanmerkung und Diagrammeditor

Touch-optimiertes Malprogramm