Ich habe die Aufgabe, "etwas" bereitzustellen, das in der Lage ist, das zu tun, was Google tut, aber für PDFs. Könnte so etwas wie "Google Desktop Search" sein, aber idealerweise würde die App auf einem Server laufen.
Hier ein paar Hintergrundinformationen zu meinem Unternehmen:
Bisher evaluiere ich diese 2 Tools:
Danke!
Vor fünf Jahren habe ich Alfresco angepasst, um genau diese Aufgabe zu erfüllen.
Alfresco ist ein Dokumentenmanagement-Server, dh Sie können Dateien (einschließlich PDFs) darauf hochladen und Ihre Kollegen können sie herunterladen oder online lesen. Jedes Dokument hat Metadaten (Autor, Datum, Schlüsselwörter usw. Sie können auch Ihre eigenen Metadatenfelder hinzufügen).
Sie können Tesseract OCR in Alfresco integrieren. Hier ist das technische Verfahren: http://www.seedim.com.au/content/alfresco-search-pdf-images-using-transformations-and-tesseract-ocr
Sobald dies erledigt ist, haben Sie eine OCR-"Aktion". Der nächste Schritt besteht darin, diese Aktion für alle hochgeladenen PDF-Dateien auszuführen. Sie können dies ganz einfach tun, indem Sie eine Alfresco-Regel erstellen . Nachdem jemand eine PDF-Datei hochgeladen hat, die das Wort „Hallo“ enthält, wird diese PDF-Datei in den Ergebnissen angezeigt, wenn Personen mit dem Alfresco-Suchfeld nach „Hallo“ suchen.
Sowohl Alfresco als auch Tesseract sind kostenlos und Open Source.
Sie können sich Pythons PDF-Miner ansehen , um die Informationen für die Indizierung in einem Textformat zu extrahieren. NLTK könnte auch nützlich sein, um relevante Wortarten auszuwählen, die signifikant wären.
Bisher war meine Bewertung von Noggle positiv: https://software4scholars.wordpress.com/2018/08/03/noggle-search-the-content-of-all-your-files/
essexboyracer
einpoklum