Benötigen Sie ein Programm, um Informationen aus gescannten Dokumenten zu entfernen

Ich habe ungefähr 200 PDF-Scans, bei denen Informationen systematisch entfernt werden müssen. Diese zu entfernenden Informationen enthalten eine Reihe von Ziffern, die unterschiedlich lang sein können.

Der aktuelle Plan ist, jedes Dokument auszudrucken, die Informationen zu entfernen und erneut einzuscannen. Ich hatte gehofft, dass es eine Möglichkeit geben würde, diesen Prozess zu automatisieren.

Ich habe versucht, die OCR von Adobe Acrobat Pro zu verwenden und dann Funktionen in Word zu suchen und zu ersetzen, aber ich bin auf einige Probleme gestoßen. Ich kann nicht herausfinden, wie ich in mehreren Word-Dokumenten nach Zahlen suchen soll, und wenn ich OCR für die Dokumente in Adobe Acrobat verwende, findet es Bilder auf der Seite und wandelt sie in Text um.

Wenn es eine Software gibt, die dies automatisieren kann, wäre dies sehr hilfreich.

Stehen diese Ziffern immer an der gleichen Stelle auf der Seite (zB rechts unten) oder im Text?
Sie befinden sich immer ungefähr an der gleichen Stelle. Da es sich jedoch um gescannte Dokumente handelt, kann der genaue Standort nicht garantiert werden.
Ich dachte, dass es einfacher wäre, eine feste Auswahl in allen Bildern zu verwischen als sowohl Drucken als auch OCR

Antworten (1)

Aus Ihrer Frage/Anmerkung entnehme ich, dass die PDFs nur Bilder enthalten.

1) Extrahieren Sie die Bilder mit einem PDF-Bildextraktor wie IweSoft PDF Image Extractor .

2) Verwischen Sie den relevanten Text in den Bildern

3) Setzen Sie die Bilder mit einem beliebigen Tool wieder in ein neues PDF zusammen (zum Erstellen von PDFs gibt es Hunderte von Optionen, daher werde ich nicht darauf eingehen).

Das Problem, das ich dabei festgestellt habe, ist, dass die PDF-Dateien mehrere Seiten umfassen können und beim Konvertieren in Bilder aufgeteilt werden. Ich kann kein Programm finden, das diese Bilder als Teil einer einzelnen Datei erkennt und sie stapelweise zurück in PDFs konvertiert.
Ich ging von einem Bild pro Seite aus. Früher habe ich einen Extraktor verwendet (den Namen vergessen), der die Bilder nacheinander benannte.
Unter Linux können Sie die Bilder mit pdfimages, Batch-Prozess extrahieren und alle zurück in ein einziges PDF konvertieren, beides mit convert/mogrify von ImageMagick