App zum Durchsuchen von PDF-Inhalten / Business Intelligence

Question

App zum Durchsuchen von PDF-Inhalten / Business Intelligence

pdf
suchen
Software

Lukas Pottersky

Ich habe die Aufgabe, "etwas" bereitzustellen, das in der Lage ist, das zu tun, was Google tut, aber für PDFs. Könnte so etwas wie "Google Desktop Search" sein, aber idealerweise würde die App auf einem Server laufen.

Hier ein paar Hintergrundinformationen zu meinem Unternehmen:

Wir sind eine Regierungsbehörde. Wir haben Hunderte von PDFs mit Nachrichtenausschnitten von Websites, die unsere Agentur oder ein Thema von unserem Interesse erwähnen
Unser CEO hält oft Reden vor verschiedenen Gemeinschaften, daher muss er spontan über ein bestimmtes Thema informiert werden, bevor er zu einem Meeting geht
Wir dachten, die Indizierung unserer PDF-Daten wäre ein guter Anfang, aber langfristig streben wir eine strukturiertere Datenanalyse an.

Bisher evaluiere ich diese 2 Tools:

Danke!

essexboyracer

Wie werden Ihre PDFs genau erstellt? Handelt es sich um einfache Scans von Hardcopy? Das Indizieren von PDFs erfordert, dass Text innerhalb des PDFs als ASCII- oder Unicode-Strings dargestellt wird (im Fall von PDFMiner). Wenn einige dieser PDFs beispielsweise Bildscans aus einem Zeitungsausschnitt sind, wird der Text höchstwahrscheinlich als Bild dargestellt, das nicht indexierbar ist. Ihr Problem besteht dann nicht darin, PDFs zu indizieren, sondern Ihre vorhandenen PDFs per OCR zu konvertieren und sich dann eine Hardware zu besorgen, die gleichzeitig scannen und OCR kann. Fujitsu bietet einige wirklich gute Desktop-Scanner an, die dies leisten - zum Beispiel der fi7180. Sie

einpoklum

Es ist immer noch nicht klar, wonach Sie fragen. "Doing what Google does" ist sowohl vage als auch von extrem weitreichender Bedeutung. Möchten Sie Text in PDFs durchsuchen? Möchten Sie OCR für alle Ihre PDFs durchführen und die Ergebnisse in einem externen durchsuchbaren Index aufbewahren? Möchten Sie OCRed-Text in das PDF einbetten? usw. Auch - Regierungsbehörden haben keine CEOs :-)

Antworten (3)

App zum Durchsuchen von PDF-Inhalten / Business Intelligence

Wie werden Ihre PDFs genau erstellt? Handelt es sich um einfache Scans von Hardcopy? Das Indizieren von PDFs erfordert, dass Text innerhalb des PDFs als ASCII- oder Unicode-Strings dargestellt wird (im Fall von PDFMiner). Wenn einige dieser PDFs beispielsweise Bildscans aus einem Zeitungsausschnitt sind, wird der Text höchstwahrscheinlich als Bild dargestellt, das nicht indexierbar ist. Ihr Problem besteht dann nicht darin, PDFs zu indizieren, sondern Ihre vorhandenen PDFs per OCR zu konvertieren und sich dann eine Hardware zu besorgen, die gleichzeitig scannen und OCR kann. Fujitsu bietet einige wirklich gute Desktop-Scanner an, die dies leisten - zum Beispiel der fi7180. Sie
Es ist immer noch nicht klar, wonach Sie fragen. "Doing what Google does" ist sowohl vage als auch von extrem weitreichender Bedeutung. Möchten Sie Text in PDFs durchsuchen? Möchten Sie OCR für alle Ihre PDFs durchführen und die Ergebnisse in einem externen durchsuchbaren Index aufbewahren? Möchten Sie OCRed-Text in das PDF einbetten? usw. Auch - Regierungsbehörden haben keine CEOs :-)

Nikolaus Raul · Answer 1

Vor fünf Jahren habe ich Alfresco angepasst, um genau diese Aufgabe zu erfüllen.

Alfresco ist ein Dokumentenmanagement-Server, dh Sie können Dateien (einschließlich PDFs) darauf hochladen und Ihre Kollegen können sie herunterladen oder online lesen. Jedes Dokument hat Metadaten (Autor, Datum, Schlüsselwörter usw. Sie können auch Ihre eigenen Metadatenfelder hinzufügen).

Sie können Tesseract OCR in Alfresco integrieren. Hier ist das technische Verfahren: http://www.seedim.com.au/content/alfresco-search-pdf-images-using-transformations-and-tesseract-ocr

Sobald dies erledigt ist, haben Sie eine OCR-"Aktion". Der nächste Schritt besteht darin, diese Aktion für alle hochgeladenen PDF-Dateien auszuführen. Sie können dies ganz einfach tun, indem Sie eine Alfresco-Regel erstellen . Nachdem jemand eine PDF-Datei hochgeladen hat, die das Wort „Hallo“ enthält, wird diese PDF-Datei in den Ergebnissen angezeigt, wenn Personen mit dem Alfresco-Suchfeld nach „Hallo“ suchen.

Sowohl Alfresco als auch Tesseract sind kostenlos und Open Source.

das sieht richtig cool aus! glückwunsch und danke für die antwort! =)

Steve Barnes · Answer 2

Sie können sich Pythons PDF-Miner ansehen , um die Informationen für die Indizierung in einem Textformat zu extrahieren. NLTK könnte auch nützlich sein, um relevante Wortarten auszuwählen, die signifikant wären.

Christoph · Answer 3

Bisher war meine Bewertung von Noggle positiv: https://software4scholars.wordpress.com/2018/08/03/noggle-search-the-content-of-all-your-files/

App zum Durchsuchen von PDF-Inhalten / Business Intelligence

Lukas Pottersky

essexboyracer

einpoklum

Antworten (3)

Nikolaus Raul

Lukas Pottersky

Steve Barnes

Christoph

Finder-Suche sucht nur nach Dateinamen (Macbook Air, El Capitan)

Software zum Durchsuchen von Dateien (meist PDF)

Suchtool für gescannte PDF-Dokumente und Bilder

Durchsuchbare mehrere PDFs auf der Website

OS X: Irgendein PDF-zu-Kindle-Formatkonverter, um technisches Material auf Amazon Kindle zu lesen?

Durchsuchen Sie Textanmerkungen in der Mac-Vorschau

Vorschau: PDF-Hervorhebung und -Suche funktionieren bis zum Neustart nicht mehr

Suche nach Satzzeichen in der Vorschau

Durchsuchen Sie eine Sammlung von Word- und PDF-Dateien

Wie kann man auf iPads iBooks Hervorhebungen für PDF-Dateien anzeigen lassen?