Ich habe PDF-Dateien, die von einem Scanner erstellt werden. Die PDFs enthalten nur Bilder.
Bisher können Sie den Text nicht kopieren und einfügen, wenn Sie das PDF mit Acrobat oder einem anderen PDF-Viewer betrachten.
Benötigte Funktionen:
Optional:
Ich muss nur Linux unterstützen, kein anderes Betriebssystem. Open Source bevorzugt, aber kommerzielle Softwareempfehlungen sind auch gültige Antworten.
Die gewünschte Lösung finden Sie auf unserer Schwesterseite: Wie kann ich eine PDF-Datei mit OCR erkennen und den Text in einer PDF-Datei speichern? Zitat dieser Antwort :
Der beste und einfachste Ausweg ist, es zu verwenden
pypdfocr
, ohne das PDF zu ändern. pypdfocr ist hier ein Python-Modul-Link.pypdfocr your_document.pdf
Am Ende haben Sie eine andere
your_document_ocr.pdf
, wie Sie es wollen, mit durchsuchbarem Text. Die App ändert die Qualität des Bildes nicht. Vergrößert die Datei ein wenig, indem der Overlay-Text hinzugefügt wird.Ich denke, der Befehl ist ziemlich einfach, da er keine GUI benötigt. Vielleicht ist die Installation von pypdfocr etwas ausführlicher:
sudo dnf -y install tesseract pip install pypdfocr
Über die Bearbeitungszeit kann ich nichts sagen, und sicherlich benötigen Sie ein separates Tool, um die Anmerkungen zu erstellen – aber alle Ihre anderen Anforderungen sollten perfekt erfüllt werden:
Alternativ gibt es auf die gleiche Weise ein weiteres Python-Modul namens ocrmypdf . Auch hier wird Tesseract für den OCR-Prozess verwendet.
Ein dritter Kandidat wäre pdfsandwich – allerdings ohne die Python-Komponente.
Ich persönlich verwende Adobes Creative Cloud – Alle Apps
https://www.adobe.com/creativecloud/plans.html
Monatliches Abonnement - jederzeit kündbar.
OCR - Qualität hängt von den Punkten pro Zoll des Scans ab. Lesbarkeit und Qualität des gescannten Objekts.
Einfügbarer Text - ja.
Bearbeitbarer Originaltext - ja.
Notation - Ja
Folgendes kann ich leider nicht beantworten:
Nach meinen Recherchen wird Adobe unter Linux arbeiten.
Schauen Sie sich Tesseract an , eine Open-Source-OCR-Software.
Es wird mit einem Befehlszeilenprogramm geliefert und es gibt auch Python-Bindungen. Pakete, die in Ihrer Linux-Distribution verfügbar sind.
apt-get install tesseract-ocr
#convert pdf to scans.tiff
tesseract scans.tiff out pdf
Dieses auf Python3 basierende Tool hat alle Funktionen: https://pypi.org/project/ocrmypdf/
Güttli
Edi