Suchen Sie nach einem einfach einzurichtenden Dokumentenindexer, der PDF-, Doc-, Docx- und TXT-Dateien für Windows unterstützt?

Wir versuchen, einen webbasierten Indexer für Dokumente einzurichten, der die Dateitypen pdf, doc, docx und txt unterstützt und keine komplizierte Einrichtung erfordert.

Wir haben es versucht:

  • swish-e: erzeugt Fehler bei pdf / docs, ist schwierig zu konfigurieren/oder funktioniert einfach nicht.
  • Apache Solr: Kann keine einfachen Beispiele / Hilfe / Support finden.
  • Verschiedene Trac-Plugins: Funktioniert noch nicht.

Auf unserem PC/Server haben wir bereits einen Apache-Webserver für SVN und Trac eingerichtet und zusätzlich: Python, PHP, Mysql.

Idealerweise wollen wir etwas, das sofort mit pdf/docs funktioniert ... gibt es ein solches Tool?

Wäre der Import aller Dokumente in ein Dokumentenmanagementsystem eine mögliche Lösung?
Möglicherweise, idealerweise wäre es leicht, einfach einzurichten/zu verwenden und über das Internet zugänglich ... haben Sie eine andere Option im Sinn?
Meine Idee wäre, alle Dokumente in ein ECM-System wie Alfresco oder NemakiWare zu legen. Solche Systeme verfügen über eine leistungsstarke integrierte Suche.
Ja, es ist keine schlechte Idee :), wissen Sie, ob sie über das Internet zugänglich sind (dh Steuerung über http)? - Ich werde mir diese beiden ansehen.

Antworten (2)

Sphider Plus ist dafür ziemlich gut geeignet. Der ursprüngliche SPhider könnte auch funktionieren, aber IIRC unterstützt nicht automatisch die Indexierung von doc/docx-Dateien. Ich fand sie beide toll. Sie sind ziemlich gleich, außer dass Sphider Plus tausendmal besser ist – stellen Sie sich das Original als eine „Lite“-Version vor. Das ist wirklich eine Rec. für Sphider plus und das ist das Feature-Set, über das ich hauptsächlich sprechen werde. Der einzige Grund, warum ich das Original erwähne, ist, dass es kostenlose/Donation-Ware ist, während Sphider Plus 25 EUR kostet.

Da Sie bereits einen WAMP-Stack haben, ist die Einrichtung recht einfach. Stellen Sie sicher, dass die Verzeichnisliste für alle aktiviert ist, um die Indizierung von Dateien abzuschließen, die keine Links zwischen ihnen haben, und richten Sie Apache so ein, dass die gewünschten Dateien gehostet werden - mit der VirtualHosts-Datei (die sich irgendwo wie folgt befindet: Apache<versionnumber>\conf\extra\httpd-vhosts.conf).

Der gewünschte Code hängt davon ab, welche Dateien durchsucht werden sollen. Ich würde so etwas vorschlagen (ändern Sie einfach die Pfade wie gewünscht/erforderlich): - Ich werde in dieser Anleitung auf diese verweisen, aber sie sind wirklich nur Beispiele.

<VirtualHost *:80>
    DocumentRoot "C:/Users/Nick/Desktop"
    ServerName www.desktop.loc
    ServerAlias desktop.loc
    <Directory "C:/Users/Nick/Desktop">
        Options Indexes FollowSymLinks
        AllowOverride All
        Order allow,deny
        Allow from all
    </Directory>
</VirtualHost>
<VirtualHost *:80>
    DocumentRoot "C:/Users/Nick/Pictures"
    ServerName www.pictures.loc
    ServerAlias pictures.loc
    <Directory "C:/Users/Nick/Pictures">
        Options Indexes FollowSymLinks
        AllowOverride All
        Order allow,deny
        Allow from all
    </Directory>
</VirtualHost>

und fügen Sie zu Ihren OS-Hosts-Dateien hinzu:

127.0.0.1 desktop.loc
127.0.0.1 www.desktop.loc
127.0.0.1 pictures.loc
127.0.0.1 www.pictures.loc

Installieren Sie dann Sphider - Plus ist wahrscheinlich besser, da es eine automatische Neuindizierung einfach eingerichtet hat und mehr Dateitypen unterstützt werden. Wahrscheinlich möchten Sie einen neuen vhost-Speicherort für search.locoder etwas für den einfachen Zugriff erstellen. Vielleicht möchten Sie diese hinter einem htaccess-Login haben, aber sowohl für das Web als auch lokal zugänglich sein - oder nur innerhalb Ihres LAN. Solange es nur localhost ist, besteht grundsätzlich kein Sicherheitsrisiko; Sobald es geöffnet ist, müssen Sie Sicherheitsrisiken berücksichtigen und Maßnahmen (z. B. eine sichere Anmeldung) ergreifen, um sie zu mindern. Um es über Ihr LAN hinaus zu haben, müssen Sie natürlich entweder über die IP darauf zugreifen - die sich bei den meisten ISPs regelmäßig ändert - oder sich einen Domänennamen besorgen und bei Bedarf dynamisches DNS einrichten.

Als nächstes fügen Sie die Orte picture.loc und desktop.loc zum Sphider-Index hinzu; Je nach Anzahl der Dateien usw. dauert es eine Weile. Dann können Sie loslegen: D

Merkmale:

  • keine maximale Anzahl zu indizierender Dateien
  • Indiziert HTML und kann durch eingebaute Konverter PDF-, DOCX-, XLSX-, ODT-, ODS-, CSV- und XLS-Dateien indizieren - es indiziert Dateinamen nur für Bilder und solche, von denen es keine Inhalte erhalten kann.
  • Recht günstig (25 EURO für Plus, Spende/kostenlos für Original)
  • leistungsstarke Admin-Oberfläche
  • ziemlich viel Automatisierung (dh automatische Neuindizierung über CRON usw. nur für Plus)
Vielen Dank für all die Informationen (+1), ich werde eine Weile brauchen, um sie durchzusehen und auszuprobieren :)
Ich habe das jetzt alles installiert. Aber es funktioniert noch nicht ganz (nur Indexierung von Titeln, kein Dateikörper). Ich glaube, ich habe etwas aus Ihrer Erklärung verpasst: Wie kann ich "sicherstellen, dass die Verzeichnisliste aktiviert ist"? Ist das eine Apache-Einstellung? - Danke :)
@code_fodder Ja, das ist eine Apache-Einstellung - aber wenn Sie die Titel erhalten, ist dies wahrscheinlich der Fall - wenn Sie in ein Verzeichnis ohne Index gehen. [html/php/htm] erhalten Sie so etwas . hmm Es sollte Inhalt indizieren. hmm, ich denke plötzlich, dass es etwas Bestimmtes zu tun gibt - ich werde meine alten Notizen von der Installation selbst durchsehen. Nur zur Bestätigung verwendest du Plus oder das Original?
Außerdem bin ich mir nicht sicher, wie Sie vorgehen: "Als nächstes die Speicherorte picture.loc und desktop.loc zum Sphider-Index hinzufügen", es scheint nur eine Site-URL zu geben?
Ja, ich benutze die Plus-Version!, danke für deine Tipps :)

Eine radikale Lösung ist die Verwendung von NemakiWare .

  • Vorteil: Einfache Einrichtung, leistungsstarke Suche integriert (Dateinamen, Metadaten, Volltext)
  • Nachteil: Sie müssen alle Ihre Dateien IN NemakiWare verschieben. NemakiWare speichert sie in seiner internen Datenbank. Ihre Dateien bleiben über eine Webschnittstelle zugänglich und können mit CmisSync mit den Computern der Mitarbeiter synchronisiert werden (Sie haben also eine Art persönlichen „Dropbox“-Server).

Unterstützte Formate: pdf, doc, docx, txt, viele andere.
Kostenlos, Open-Source.

Haftungsausschluss: Meine Firma stellt sowohl NemakiWare als auch CmisSync her. Sowohl kostenlos als auch Open Source.

Es ist keine schlechte Idee ... aber ich denke, alle Dokumente müssen in der NemakiWare gespeichert werden, was (für uns) keine sehr gute Option ist :)