Ich suche nach einem Tool, das in gescannten PDF-Dokumenten und Bildern nach Text suchen kann. Ich habe Evernote ausprobiert und es hat mir sehr gut gefallen, aber ich möchte keine persönlichen Dokumente in der Cloud eines anderen haben.
Ich bin Entwickler, also könnte ich einige kleinere Dinge selbst erledigen, aber das Analysieren von PDF-Dateien nach Text ist weit außerhalb meiner Liga.
Wichtige Funktionen
Weniger wichtige Funktionen
Budget
Entweder ca. 50€/Jahr oder ca. 200€ einmalig.
Möglicherweise können Sie mit Python pdfminer / pdfminer3k einige Fortschritte erzielen , aber das große Problem besteht darin, dass gescannte PDF-Dateien nur Text als Ergebnis einer vom Scanner durchgeführten OCR ( Optical Character Recognition ) enthalten. Je nach Schriftart und Qualität des Originaldokuments und je nach Scanner variiert die Qualität enorm.
Wenn der Text im PDF vorhanden und von guter Qualität ist, können Sie pdfminer verwenden, um ihn zu extrahieren und Ihre Dateien daraus zu indizieren, aber ansonsten müssen Sie zuerst OCR auf den Bildern der Seiten durchführen, indem Sie etwas wie Aprise oder Abby verwenden (beide kostenpflichtig for) oder Tesseract (kostenlos und mit einer Reihe von Frontends, einschließlich pyTesseract ).
Wenn Ihre PDF-Dateien handgeschriebene Dokumente oder Dokumente in schlechter Scanqualität enthalten, werden Sie wahrscheinlich Schwierigkeiten haben.
Yves Daust