Benötigen Sie ein Programm, um Informationen aus gescannten Dokumenten zu entfernen

Question

Benötigen Sie ein Programm, um Informationen aus gescannten Dokumenten zu entfernen

okr
pdf
scannen
Software

thequantumguy01

Ich habe ungefähr 200 PDF-Scans, bei denen Informationen systematisch entfernt werden müssen. Diese zu entfernenden Informationen enthalten eine Reihe von Ziffern, die unterschiedlich lang sein können.

Der aktuelle Plan ist, jedes Dokument auszudrucken, die Informationen zu entfernen und erneut einzuscannen. Ich hatte gehofft, dass es eine Möglichkeit geben würde, diesen Prozess zu automatisieren.

Ich habe versucht, die OCR von Adobe Acrobat Pro zu verwenden und dann Funktionen in Word zu suchen und zu ersetzen, aber ich bin auf einige Probleme gestoßen. Ich kann nicht herausfinden, wie ich in mehreren Word-Dokumenten nach Zahlen suchen soll, und wenn ich OCR für die Dokumente in Adobe Acrobat verwende, findet es Bilder auf der Seite und wandelt sie in Text um.

Wenn es eine Software gibt, die dies automatisieren kann, wäre dies sehr hilfreich.

Tymric

Stehen diese Ziffern immer an der gleichen Stelle auf der Seite (zB rechts unten) oder im Text?

thequantumguy01

Sie befinden sich immer ungefähr an der gleichen Stelle. Da es sich jedoch um gescannte Dokumente handelt, kann der genaue Standort nicht garantiert werden.

Tymric

Ich dachte, dass es einfacher wäre, eine feste Auswahl in allen Bildern zu verwischen als sowohl Drucken als auch OCR

Antworten (1)

Benötigen Sie ein Programm, um Informationen aus gescannten Dokumenten zu entfernen

Stehen diese Ziffern immer an der gleichen Stelle auf der Seite (zB rechts unten) oder im Text?
Sie befinden sich immer ungefähr an der gleichen Stelle. Da es sich jedoch um gescannte Dokumente handelt, kann der genaue Standort nicht garantiert werden.
Ich dachte, dass es einfacher wäre, eine feste Auswahl in allen Bildern zu verwischen als sowohl Drucken als auch OCR

Benutzer416 · Answer 1

Aus Ihrer Frage/Anmerkung entnehme ich, dass die PDFs nur Bilder enthalten.

1) Extrahieren Sie die Bilder mit einem PDF-Bildextraktor wie IweSoft PDF Image Extractor .

2) Verwischen Sie den relevanten Text in den Bildern

3) Setzen Sie die Bilder mit einem beliebigen Tool wieder in ein neues PDF zusammen (zum Erstellen von PDFs gibt es Hunderte von Optionen, daher werde ich nicht darauf eingehen).

Das Problem, das ich dabei festgestellt habe, ist, dass die PDF-Dateien mehrere Seiten umfassen können und beim Konvertieren in Bilder aufgeteilt werden. Ich kann kein Programm finden, das diese Bilder als Teil einer einzelnen Datei erkennt und sie stapelweise zurück in PDFs konvertiert.
Ich ging von einem Bild pro Seite aus. Früher habe ich einen Extraktor verwendet (den Namen vergessen), der die Bilder nacheinander benannte.
Unter Linux können Sie die Bilder mit pdfimages, Batch-Prozess extrahieren und alle zurück in ein einziges PDF konvertieren, beides mit convert/mogrify von ImageMagick

Benötigen Sie ein Programm, um Informationen aus gescannten Dokumenten zu entfernen

thequantumguy01

Tymric

thequantumguy01

Tymric

Antworten (1)

Benutzer416

thequantumguy01

Benutzer416

Pablo A

Welche Tools können gescannte Papierdokumente auf dem Mac in durchsuchbare Text-PDFs umwandeln?

Scannen Sie Textdokumente mit OCR in PDF

Auf der Suche nach Software zum Scannen oder Konvertieren in durchsuchbare und signierbare PDF-Dateien

Ein PDF-zu-Mobi-Konverter

Scannen von Multiple-Choice-Antworten vom Papier

Einfaches Scannen in PDF

Erstellen Sie kopier- und einfügbare PDFs aus Scans

OS X: Irgendein PDF-zu-Kindle-Formatkonverter, um technisches Material auf Amazon Kindle zu lesen?

Dokumentenbetrachter

Kostenlose OCR-Software, die ein PDF durchsuchbar macht (mit durchsuchbarem Text an der richtigen Stelle)