Durchsuchbare mehrere PDFs auf der Website

Ich habe eine große Anzahl von PDFs, die online veröffentlicht werden müssen.

Derzeit verwende ich eine Datenbank, um Schlüsselwörter für jedes PDF zu speichern (sowie andere Metadaten und den Dateinamen, um einen Link bereitzustellen).

Ich verwende ein HTML-Suchformular und etwas PHP-Code, der dann die Schlüsselwörter in der Datenbank verwendet, um Datensätze abzugleichen und eine Ergebnisseite mit den Titeln und Links zu den PDFs bereitzustellen

Das Pflegen umfangreicher Schlüsselwortlisten für jede PDF-Datei ist jedoch sehr zeitaufwändig.

Stattdessen möchte ich eine Software verwenden, die diesen Prozess automatisiert, indem sie in der Lage ist, den Inhalt der PDF-Dateien selbst zu durchsuchen. Es müsste etwas sein, das ich auf einer Website bereitstellen kann, keine Desktop-Anwendung.

Gibt es eine solche Software?

Mir ist eine solche Software nicht bekannt. Wenn Sie keine finden können, besteht ein alternativer Ansatz darin, den "Textinhalt" der PDF-Datei in einer Textspalte zu haben und eine Volltextsuche dafür zu verwenden. Die meisten Datenbanken bieten solche Funktionen.

Antworten (1)

Es gibt ein Apache-Softwareprodukt namens Lucene , das eine beliebte Indizierungs- und Suchmaschine ist. Die Funktionsliste sollte Ihnen sagen, ob sie die Einzelheiten der Suchfunktionen enthält, die Sie benötigen.

Es gibt eine Erweiterung, die Sie verwenden können ( lucene-pdf ), um speziell bei der PDF-Indizierung zu helfen. Es basiert auf Java, sodass Sie es auf fast jedem Server installieren können, und es ist eine Python-Version verfügbar, wenn dies besser zu Ihrer Umgebung passt.

Ich hoffe das hilft.