Suchtool für gescannte PDF-Dokumente und Bilder

Question

Suchtool für gescannte PDF-Dokumente und Bilder

pdf
suchen
Software
Textsuche

Joba

Ich suche nach einem Tool, das in gescannten PDF-Dokumenten und Bildern nach Text suchen kann. Ich habe Evernote ausprobiert und es hat mir sehr gut gefallen, aber ich möchte keine persönlichen Dokumente in der Cloud eines anderen haben.

Ich bin Entwickler, also könnte ich einige kleinere Dinge selbst erledigen, aber das Analysieren von PDF-Dateien nach Text ist weit außerhalb meiner Liga.

Wichtige Funktionen

Kein Cloud-Dienst
Fähigkeit, mit gescannten PDF-Dokumenten und Bildern umzugehen
Soll zuverlässig mit bis zu 100.000 Dokumenten arbeiten können.
Muss entweder unter Linux oder Windows 10 mit 8 GB RAM laufen
Hat vorzugsweise eine sichere Webschnittstelle, die es mir ermöglicht, Dokumente hinzuzufügen und nach Dokumenten zu suchen
Muss große Dokumente >50 MB unterstützen

Weniger wichtige Funktionen

Unterstützt die Verschlüsselung von Dokumenten (zB Suche erfordert Authentifizierung)
Kann mit anderen Dokumenttypen umgehen (raw, docx, pptx usw.)
Möglichkeit, mehrere Benutzer hinzuzufügen

Budget

Entweder ca. 50€/Jahr oder ca. 200€ einmalig.

Yves Daust

Dieses Budget schließt jegliche kommerzielle Software aus, denke ich. Readiris vielleicht?

Antworten (1)

Suchtool für gescannte PDF-Dokumente und Bilder

Dieses Budget schließt jegliche kommerzielle Software aus, denke ich. Readiris vielleicht?

Steve Barnes · Answer 1

Möglicherweise können Sie mit Python pdfminer / pdfminer3k einige Fortschritte erzielen , aber das große Problem besteht darin, dass gescannte PDF-Dateien nur Text als Ergebnis einer vom Scanner durchgeführten OCR ( Optical Character Recognition ) enthalten. Je nach Schriftart und Qualität des Originaldokuments und je nach Scanner variiert die Qualität enorm.

Wenn der Text im PDF vorhanden und von guter Qualität ist, können Sie pdfminer verwenden, um ihn zu extrahieren und Ihre Dateien daraus zu indizieren, aber ansonsten müssen Sie zuerst OCR auf den Bildern der Seiten durchführen, indem Sie etwas wie Aprise oder Abby verwenden (beide kostenpflichtig for) oder Tesseract (kostenlos und mit einer Reihe von Frontends, einschließlich pyTesseract ).

Wenn Ihre PDF-Dateien handgeschriebene Dokumente oder Dokumente in schlechter Scanqualität enthalten, werden Sie wahrscheinlich Schwierigkeiten haben.

Suchtool für gescannte PDF-Dokumente und Bilder

Joba

Yves Daust

Antworten (1)

Steve Barnes

Software zum Durchsuchen von Dateien (meist PDF)

Durchsuchbare mehrere PDFs auf der Website

Finder-Suche sucht nur nach Dateinamen (Macbook Air, El Capitan)

Search & Replace-Software, die ersetzte Wörter akzeptiert, zählt mehr als 234.206 Zeichen

App zum Durchsuchen von PDF-Inhalten / Business Intelligence

OS X: Irgendein PDF-zu-Kindle-Formatkonverter, um technisches Material auf Amazon Kindle zu lesen?

Software zum Durchführen einer Rückwärtssuche - Abgleichen eines Textkörpers mit einem bekannten Ausdruck

Durchsuchen Sie Textanmerkungen in der Mac-Vorschau

Vorschau: PDF-Hervorhebung und -Suche funktionieren bis zum Neustart nicht mehr

Welche Tools können gescannte Papierdokumente auf dem Mac in durchsuchbare Text-PDFs umwandeln?