App zum Durchsuchen von PDF-Inhalten / Business Intelligence

Ich habe die Aufgabe, "etwas" bereitzustellen, das in der Lage ist, das zu tun, was Google tut, aber für PDFs. Könnte so etwas wie "Google Desktop Search" sein, aber idealerweise würde die App auf einem Server laufen.

Hier ein paar Hintergrundinformationen zu meinem Unternehmen:

  • Wir sind eine Regierungsbehörde. Wir haben Hunderte von PDFs mit Nachrichtenausschnitten von Websites, die unsere Agentur oder ein Thema von unserem Interesse erwähnen
  • Unser CEO hält oft Reden vor verschiedenen Gemeinschaften, daher muss er spontan über ein bestimmtes Thema informiert werden, bevor er zu einem Meeting geht
  • Wir dachten, die Indizierung unserer PDF-Daten wäre ein guter Anfang, aber langfristig streben wir eine strukturiertere Datenanalyse an.

Bisher evaluiere ich diese 2 Tools:

Danke!

Wie werden Ihre PDFs genau erstellt? Handelt es sich um einfache Scans von Hardcopy? Das Indizieren von PDFs erfordert, dass Text innerhalb des PDFs als ASCII- oder Unicode-Strings dargestellt wird (im Fall von PDFMiner). Wenn einige dieser PDFs beispielsweise Bildscans aus einem Zeitungsausschnitt sind, wird der Text höchstwahrscheinlich als Bild dargestellt, das nicht indexierbar ist. Ihr Problem besteht dann nicht darin, PDFs zu indizieren, sondern Ihre vorhandenen PDFs per OCR zu konvertieren und sich dann eine Hardware zu besorgen, die gleichzeitig scannen und OCR kann. Fujitsu bietet einige wirklich gute Desktop-Scanner an, die dies leisten - zum Beispiel der fi7180. Sie
Es ist immer noch nicht klar, wonach Sie fragen. "Doing what Google does" ist sowohl vage als auch von extrem weitreichender Bedeutung. Möchten Sie Text in PDFs durchsuchen? Möchten Sie OCR für alle Ihre PDFs durchführen und die Ergebnisse in einem externen durchsuchbaren Index aufbewahren? Möchten Sie OCRed-Text in das PDF einbetten? usw. Auch - Regierungsbehörden haben keine CEOs :-)

Antworten (3)

Vor fünf Jahren habe ich Alfresco angepasst, um genau diese Aufgabe zu erfüllen.

Alfresco ist ein Dokumentenmanagement-Server, dh Sie können Dateien (einschließlich PDFs) darauf hochladen und Ihre Kollegen können sie herunterladen oder online lesen. Jedes Dokument hat Metadaten (Autor, Datum, Schlüsselwörter usw. Sie können auch Ihre eigenen Metadatenfelder hinzufügen).

Sie können Tesseract OCR in Alfresco integrieren. Hier ist das technische Verfahren: http://www.seedim.com.au/content/alfresco-search-pdf-images-using-transformations-and-tesseract-ocr

Sobald dies erledigt ist, haben Sie eine OCR-"Aktion". Der nächste Schritt besteht darin, diese Aktion für alle hochgeladenen PDF-Dateien auszuführen. Sie können dies ganz einfach tun, indem Sie eine Alfresco-Regel erstellen . Nachdem jemand eine PDF-Datei hochgeladen hat, die das Wort „Hallo“ enthält, wird diese PDF-Datei in den Ergebnissen angezeigt, wenn Personen mit dem Alfresco-Suchfeld nach „Hallo“ suchen.

Durchsuchen Sie PDFs im Freien

Sowohl Alfresco als auch Tesseract sind kostenlos und Open Source.

das sieht richtig cool aus! glückwunsch und danke für die antwort! =)

Sie können sich Pythons PDF-Miner ansehen , um die Informationen für die Indizierung in einem Textformat zu extrahieren. NLTK könnte auch nützlich sein, um relevante Wortarten auszuwählen, die signifikant wären.