Ich habe eine gescannte Kopie eines Buches, in dem viele Zeilen mit einem Stift unterstrichen sind, es gibt auch Notizen an den Rändern. Ich brauche ein Programm, um diese Markierungen zu entfernen oder den Text ohne Verlust der Formatierung zu extrahieren und als PDF-Dokument zu speichern. Das Buch wurde auf dunklem Papier gedruckt. Mein OS ist Windows 7. Wäre für Empfehlungen sehr dankbar.
ImageMagick convert
kann im Stapelmodus verwendet werden, um die Stiftmarkierung herauszufiltern und gleichzeitig die Bilder auf Schwarzweiß zu reduzieren (normalerweise sowieso besser für OCR). Ich würde zuerst ein paar typische Bilder und Scans auswählen und testen, um die Filterwerte zu erhalten, die Sie benötigen. GIMP kann verwendet werden, um die Tintenfarbe(n) zu testen, oder Sie können die ImageMagick-Histogrammfunktion verwenden, um sie zu identifizieren.
ImageMagik ist:
Die PDF-Datei wird jedoch eine der bereinigten gescannten Bilder sein. Um dies durchsuchbar zu machen, müssen Sie ein OCR-Programm (Optical Character Recognition) auf den bereinigten Bildern ausführen.
OCR ist unterschiedlich erfolgreich, abhängig von der Qualität der Bilder, der verwendeten Schriftart(en), der Anzahl der Diagramme, dem Training des Programms (einige können trainiert werden) und bis zu einem gewissen Grad, wie undurchsichtig der Text ist - Viele OCR-Programme versuchen, basierend auf der Rechtschreibung und dem Kontext zu korrigieren. Wenn Sie beispielsweise Naturwissenschaften, Mathematik oder Psychologie mit OCR versehen, können Sie mit vielen Fehlern rechnen, da viele Terminologien nicht in das englische Standardwörterbuch passen .
Tesseract ist einen Blick wert, um die OCR durchzuführen. Es ist:
Ich muss sagen, dass es in den meisten Fällen angesichts der Zeit und des Aufwands, die für ein umfangreiches Buch erforderlich sind, wahrscheinlich sinnvoll wäre, genug Zeit hinter einer Bar zu verbringen, oder so ziemlich jeden Teilzeitjob mit Mindestlohn, um eine Marke zu kaufen. neues Exemplar desselben Buches, als eBook oder pdf, falls vorhanden, vom Verlag.
Steve Barnes
Schwarz