Ich habe ungefähr 200 PDF-Scans, bei denen Informationen systematisch entfernt werden müssen. Diese zu entfernenden Informationen enthalten eine Reihe von Ziffern, die unterschiedlich lang sein können.
Der aktuelle Plan ist, jedes Dokument auszudrucken, die Informationen zu entfernen und erneut einzuscannen. Ich hatte gehofft, dass es eine Möglichkeit geben würde, diesen Prozess zu automatisieren.
Ich habe versucht, die OCR von Adobe Acrobat Pro zu verwenden und dann Funktionen in Word zu suchen und zu ersetzen, aber ich bin auf einige Probleme gestoßen. Ich kann nicht herausfinden, wie ich in mehreren Word-Dokumenten nach Zahlen suchen soll, und wenn ich OCR für die Dokumente in Adobe Acrobat verwende, findet es Bilder auf der Seite und wandelt sie in Text um.
Wenn es eine Software gibt, die dies automatisieren kann, wäre dies sehr hilfreich.
Aus Ihrer Frage/Anmerkung entnehme ich, dass die PDFs nur Bilder enthalten.
1) Extrahieren Sie die Bilder mit einem PDF-Bildextraktor wie IweSoft PDF Image Extractor .
2) Verwischen Sie den relevanten Text in den Bildern
3) Setzen Sie die Bilder mit einem beliebigen Tool wieder in ein neues PDF zusammen (zum Erstellen von PDFs gibt es Hunderte von Optionen, daher werde ich nicht darauf eingehen).
pdfimages
, Batch-Prozess extrahieren und alle zurück in ein einziges PDF konvertieren, beides mit convert/mogrify von ImageMagick
Tymric
thequantumguy01
Tymric