Software zur Textsuche in einem GROSSEN Satz von Dateien (E-Books)

Auf der Suche nach einem Windows-Programm (ähnlich "Everything"), das Folgendes kann:

  • Scannen Sie rekursiv ein sehr großes Verzeichnis (2–3 TB, 10.000 oder sogar 100.000 Dateien in 1.000 Ordnern).
  • Indexieren Sie für jede "Text"-Datei den gesamten darin enthaltenen Text vollständig
  • Bietet die Möglichkeit, herauszufinden, in welchen Dateien sich eine bestimmte Suchzeichenfolge befindet.
  • "Text"-Dateien umfassen mindestens .txt, .pdf, .epub, .mobi. Idealerweise andere bekannte E-Book-Formate (.fb2, .doc, .docx)
  • Erweiterte Suchfunktion erwünscht (Suche nach allen/beliebigen Suchbegriffen, Negation des Suchbegriffs. Idealerweise Regex. Idealerweise PCRE).

Optional gewünschte Features:

  • Unterstützung für nicht-englischen Text, sowohl für die Indizierung als auch für die Suche, in anderen Formaten; spezifisch russischer Text (KOI-8, Windows-1251)
  • Unterstützung für Unicode (Indizierung und Suche).
  • Kann Archive durchsuchen (mindestens .zip und .rar)
  • Gute GUI (denken Sie an die „Everything“-App), um Suchergebnisse anzuzeigen. Schnell gefiltertes Raster, Aktionsmenü für jede gefundene Datei, einschließlich Kopierort, Öffnen des enthaltenen Ordners, Kopieren/Ausschneiden von Dateien wie im Windows Explorer-Menü.
  • Hält den Index automatisch aktualisiert, wenn Dateien im Dateisystem hinzugefügt/entfernt/geändert werden, so wie es Everything tut.
  • Idealerweise kostenlos, aber nicht erforderlich, solange der Preis angemessen ist.
  • Windows XP erforderlich. Zusätzliche Bonuspunkte für Windows 8.
Schöne Sci-Fi-Sammlung!
Markieren Sie beim nächsten Mal bitte das spezifische Betriebssystem in Ihrer Frage. Sie haben auch gesagt, dass WindowsXP erforderlich ist, aber Sie haben es in Ihre optionalen Funktionen aufgenommen. Bitte klären Sie. Ich habe diesen Punkt verpasst und eine Antwort für Windows 7 geschrieben (die meiner Meinung nach mit Win8 funktionieren wird), die ich noch veröffentlichen werde.
@ Yos233 - Ich hätte lieber eine gute Software, die nur 8 ist, als keine (ich kann die Sammlung bei Bedarf von XP auf 8 verschieben). Aber derzeit ist es auf XP-System.
Denken Sie daran, dass Regexes/PCRE NICHT mit dem Indizierungsansatz kompatibel sind. Volltextindizes können nicht von Regex-Suchen verwendet werden, da sie nicht genügend Informationen enthalten, um eine Regex zu bedienen. Für einen Regex-basierten Ansatz müssen Sie eine klassische Suche durchführen.

Antworten (6)

Soweit mir bekannt ist, verfügt Windows 7 Explorer über alle grundlegenden Funktionen, die Sie benötigen, und einige der optionalen Funktionen.


Sie können ein Dateiverzeichnis in Windows (7+) auf zwei Arten indizieren. Indizieren Sie das Verzeichnis direkt oder machen Sie es zu einer Bibliothek.

Direkter Index: Siehe hier: wikiHow: How to Add a Folder to the Windows 7 File Index

Bibliothek erstellen: Gehen Sie im Explorer zu „Bibliotheken“ und klicken Sie auf „Neue Bibliothek“.


Die erweiterte Suche in Windows ist etwas, das ich nur dafür nachschlagen musste, aber How-To Geek hat einen sehr informativen Artikel dazu. Artikel

Stellen Sie außerdem sicher, dass die Suche nach Dateiinhalten aktiviert ist: wikiHow: How to Make Windows 7 Search File Contents


Nachtrag: Nachdem ich dies geschrieben hatte, bemerkte ich, dass das OP nach Windows XP fragte. Ich mache weiter, auch wenn es für jemand anderen, der mitkommt, nicht akzeptiert wird (und so habe ich keine 30 Minuten verschwendet).

Wie gut skaliert es? Kann es insbesondere die in der Frage angegebene Größe effektiv handhaben, ohne das System sowohl beim Indizieren als auch beim Suchen zu verlangsamen? Kann es Inhalte von Text-PDFs indizieren? EPUBs?
Ich glaube nicht, dass der Explorer das System verlangsamen würde (auf Kosten einer möglicherweise langsameren Suche). Die PDF-Indizierung ist über die Adobe IFilter .dll möglich, adobe.com/support/downloads/detail.jsp?ftpID=4025 . Ich konnte kein ähnliches für EPUB finden, also möglicherweise nicht.
Würde das System nicht ins Stocken geraten? Es verheddert sich beim Öffnen (vergessen Sie die Suche) eines Verzeichnisses mit mehreren tausend Dateien darin !!!
Sie haben die Frage gestellt und ich habe Ihnen meine beste Antwort gegeben. Für mich bezieht sich das Herunterfahren des Systems auf die Verlangsamung anderer Prozesse (z. B. CPU-Hog). Ja, natürlich wird das Durchsuchen von Tausenden von Dateien einige Zeit in Anspruch nehmen. Ich glaube nicht, dass Sie ein einziges Programm finden werden, das Ihre umfangreiche Bibliothek mit großer Geschwindigkeit durchsuchen kann.
Ich bezog mich nicht auf die Indizierung. Ich bezog mich auf die Anzeige von Ergebnissen. Alles kann Tausende von Ergebnissen bissig anzeigen. Windows Explorer wird eingefroren
Hinweis : Einer der Gründe, warum Windows mit der Zeit langsamer wird, ist, dass die Indizierung standardmäßig aktiviert ist und die Maschine immer mehr verlangsamt. Es ist daher wahrscheinlich eines der am häufigsten ausgeschalteten Features!
Quelle bitte. Ich habe eine Suche durchgeführt und konnte keine quantifizierbaren Daten über den Index finden, der einen Computer verlangsamt.

Regain (Desktop-Suche)

 

Sie können eine Liste von Desktop-Suchmanagern auf Wikipedia finden, aber ich halte das Regain-Opensource-Projekt für eine vernünftige Wahl, außerdem ist es kostenlos (wie in libre) und auch Opensource und noch in der Entwicklung, was bedeutet, dass neue Funktionen erscheinen werden ( vollständige Funktionsliste hier ).

kurze Beschreibung

Regain ist eine Java-Suchmaschine, die auf Jakarta Lucene basiert. Es bietet Indizierung und Suche nach Dateien für viele Formate (HTML, XML, doc(x), xls(x), ppt(x), oo, PDF, RTF, mp3, mp4, Java). Eine TagLibrary erleichtert die Integration von Suchergebnissen in Ihre JSP-basierte Webseite.

Hauptfunktionen, die ich sehr nützlich finde:

  • Webserver (damit im LAN auf allen Geräten in Ihrem LAN darauf zugegriffen werden kann)
  • Tray-Icon (Schnellzugriff)
  • zwischengespeicherte Version der indizierten Datei (manchmal zahlt sich das Laden eines großen PDFs nicht aus)
  • Suchbegriffe (leistungsstarker Lucent-Schlüsselwortsatz)
  • kann zusätzliche Formate unterstützen (regain unterstützt I-Filter)
  • unterstützt API

Nur ein paar Schnappschüsse:

Geben Sie hier die Bildbeschreibung ein

Geben Sie hier die Bildbeschreibung ein

Ich würde das gerne verwenden, aber die Dokumentation fehlt ...

Der Open Source DocFetcher hat für mich über 10.000 epub-Bücher indiziert. Der Indexierungsprozess ist schnell und die Durchführung einer Volltextsuche über all diese Bücher (nach der Indexierung) dauert nur wenige Sekunden.

Copernic Desktop-Suche

Für einen volltextbasierten Ansatz nehmen Sie entweder Windows Search oder Copernic Desktop Search ($50 für die Vollversion, die kostenlose Version (" Lite ") für nicht-kommerzielle Nutzung ist auf 75.000 Dateien begrenzt).

Insbesondere Copernic Desktop Search hat alle Fähigkeiten, die Sie brauchen. Ich habe es mit 4.000.000 Dokumenten getestet, die Suche war immer noch sehr schnell. Es erkennt Operatoren wie AND, OR, NOT, NEAR, um Ihre Suche zu unterstützen.

Vielleicht könnte DocFetcher helfen.

Von der Homepage:

Die Anwendung läuft unter Windows, Linux und Mac OS X und wird unter der Eclipse Public License zur Verfügung gestellt .

Bemerkenswerte Eigenschaften

  • Eine portable Version : Es gibt eine portable Version von DocFetcher, die unter Windows, Linux und Mac OS X läuft. Wie dies nützlich ist, wird weiter unten auf dieser Seite ausführlicher beschrieben.
  • 64-Bit-Unterstützung : Sowohl 32-Bit- als auch 64-Bit-Betriebssysteme werden unterstützt.
  • Unicode-Unterstützung : DocFetcher bietet solide Unicode-Unterstützung für alle wichtigen Formate, einschließlich Microsoft Office, OpenOffice.org, PDF, HTML, RTF und Nur-Text-Dateien. Die einzige Ausnahme ist CHM, für das wir noch keine Unicode-Unterstützung haben.
  • Archivunterstützung : DocFetcher unterstützt die folgenden Archivformate: zip, 7z, rar und die gesamte tar.*-Familie. Die Dateierweiterungen für Zip-Archive können angepasst werden, sodass Sie bei Bedarf weitere Zip-basierte Archivformate hinzufügen können. Außerdem kann DocFetcher eine unbegrenzte Verschachtelung von Archiven handhaben (z. B. ein Zip-Archiv, das ein 7z-Archiv enthält, das ein RAR-Archiv enthält ... und so weiter).
  • Suche in Quellcodedateien : Die Dateierweiterungen, anhand derer DocFetcher reine Textdateien erkennt, können angepasst werden, sodass Sie DocFetcher für die Suche in jeder Art von Quellcode und anderen textbasierten Dateiformaten verwenden können. (Dies funktioniert recht gut in Kombination mit den anpassbaren Zip-Erweiterungen, z. B. zum Suchen im Java-Quellcode in Jar-Dateien.)
  • Outlook PST-Dateien : DocFetcher ermöglicht die Suche nach Outlook-E-Mails, die Microsoft Outlook normalerweise in PST-Dateien speichert.
  • Erkennung von HTML-Paaren : Standardmäßig erkennt DocFetcher Paare von HTML-Dateien (z. B. eine Datei mit dem Namen "foo.html" und einen Ordner mit dem Namen "foo_files") und behandelt das Paar als ein einzelnes Dokument. Diese Funktion mag auf den ersten Blick ziemlich nutzlos erscheinen, aber es hat sich herausgestellt, dass dies die Qualität der Suchergebnisse beim Umgang mit HTML-Dateien dramatisch erhöht, da der gesamte "Kram" in den HTML-Ordnern aus den Ergebnissen verschwindet.
  • Regex-basierter Ausschluss von Dateien von der Indizierung : Sie können reguläre Ausdrücke verwenden, um bestimmte Dateien von der Indizierung auszuschließen. Um beispielsweise Microsoft Excel-Dateien auszuschließen, können Sie einen regulären Ausdruck wie diesen verwenden: .*.xls
  • Mime-Type-Erkennung : Sie können reguläre Ausdrücke verwenden, um die „Mime-Type-Erkennung“ für bestimmte Dateien einzuschalten, was bedeutet, dass DocFetcher versucht, ihre tatsächlichen Dateitypen nicht nur anhand des Dateinamens, sondern auch durch einen Blick in den Dateiinhalt zu erkennen . Dies ist praktisch für Dateien mit der falschen Dateierweiterung.
  • Leistungsstarke Abfragesyntax : Neben grundlegenden Konstrukten wie OR, AND und NOT unterstützt DocFetcher unter anderem auch: Wildcards, Phrasensuche, Fuzzy-Suche ("finde Wörter, die ähnlich sind wie..."), Näherungssuche ("diese zwei Wörter sollten höchstens 10 Wörter voneinander entfernt sein"), Boosting ("Erhöhen Sie die Punktzahl von Dokumenten mit ...")

Unterstützte Dokumentformate

  • Microsoft Office (doc, xls, ppt)
  • Microsoft Office 2007 und neuer (docx, xlsx, pptx, docm, xlsm, pptm)
  • Microsoft-Outlook (pst)
  • OpenOffice.org (odt, ods, odg, odp, ott, ots, otg, otp)
  • Portables Dokumentenformat (pdf)
  • EPUB (epub)
  • HTML (html, xhtml, ...)
  • TXT und andere Nur-Text-Formate (anpassbar)
  • Rich-Text-Format (rtf)
  • AbiWord (abw, abw.gz, zabw)
  • Kompilierte Microsoft-HTML-Hilfe (chm)
  • MP3-Metadaten (mp3)
  • FLAC-Metadaten (flac)
  • JPEG-Exif-Metadaten (jpg, jpeg)
  • Microsoft Visio (vsd)
  • Skalierbare Vektorgrafiken (svg)

WinGrep

Sie können bei Bedarf auch in Binärdateien nach bestimmten Wörtern suchen (nb dies wird bei einigen PDFs, zB denen von Scannern, nicht gut funktionieren). mit wingrep - es ist kostenlos und sucht sogar in .zip-Dateien. Ich verlangsame den PC nicht ständig, noch verbraucht er viel Speicherplatz, da er keine Indizes erstellt, aber infolgedessen nicht so schnell läuft. Es ist kostenlos von Micro$oft und wird wahrscheinlich auf den meisten Windows-Varianten funktionieren.

Calibre eBook-Manager

Sucht AFAIK nicht innerhalb von Dateien , sondern durchsucht eBook - Metadaten und Sie können die Metadaten bearbeiten, aber Calibre hat die folgenden Funktionen:

  • Es dient speziell zur Pflege von Bibliotheken mit eBooks,
  • kann für Sie zwischen Formaten konvertieren,
  • umfasst Betrachter für viele Formate,
  • kann eBooks auf den meisten Geräten verwalten.

Es ist kostenlos und Open Source und läuft fast überall.

Ich würde dringend empfehlen, es zu bekommen, was auch immer Sie tun.