Suchtool für gescannte PDF-Dokumente und Bilder

Ich suche nach einem Tool, das in gescannten PDF-Dokumenten und Bildern nach Text suchen kann. Ich habe Evernote ausprobiert und es hat mir sehr gut gefallen, aber ich möchte keine persönlichen Dokumente in der Cloud eines anderen haben.

Ich bin Entwickler, also könnte ich einige kleinere Dinge selbst erledigen, aber das Analysieren von PDF-Dateien nach Text ist weit außerhalb meiner Liga.

Wichtige Funktionen

  1. Kein Cloud-Dienst
  2. Fähigkeit, mit gescannten PDF-Dokumenten und Bildern umzugehen
  3. Soll zuverlässig mit bis zu 100.000 Dokumenten arbeiten können.
  4. Muss entweder unter Linux oder Windows 10 mit 8 GB RAM laufen
  5. Hat vorzugsweise eine sichere Webschnittstelle, die es mir ermöglicht, Dokumente hinzuzufügen und nach Dokumenten zu suchen
  6. Muss große Dokumente >50 MB unterstützen

Weniger wichtige Funktionen

  1. Unterstützt die Verschlüsselung von Dokumenten (zB Suche erfordert Authentifizierung)
  2. Kann mit anderen Dokumenttypen umgehen (raw, docx, pptx usw.)
  3. Möglichkeit, mehrere Benutzer hinzuzufügen

Budget

Entweder ca. 50€/Jahr oder ca. 200€ einmalig.

Dieses Budget schließt jegliche kommerzielle Software aus, denke ich. Readiris vielleicht?

Antworten (1)

Möglicherweise können Sie mit Python pdfminer / pdfminer3k einige Fortschritte erzielen , aber das große Problem besteht darin, dass gescannte PDF-Dateien nur Text als Ergebnis einer vom Scanner durchgeführten OCR ( Optical Character Recognition ) enthalten. Je nach Schriftart und Qualität des Originaldokuments und je nach Scanner variiert die Qualität enorm.

Wenn der Text im PDF vorhanden und von guter Qualität ist, können Sie pdfminer verwenden, um ihn zu extrahieren und Ihre Dateien daraus zu indizieren, aber ansonsten müssen Sie zuerst OCR auf den Bildern der Seiten durchführen, indem Sie etwas wie Aprise oder Abby verwenden (beide kostenpflichtig for) oder Tesseract (kostenlos und mit einer Reihe von Frontends, einschließlich pyTesseract ).

Wenn Ihre PDF-Dateien handgeschriebene Dokumente oder Dokumente in schlechter Scanqualität enthalten, werden Sie wahrscheinlich Schwierigkeiten haben.