Ich suche nach einem Tool, das ein bestimmtes Muster im Text eines Microsoft Word-Dokuments (.doc) oder eines PDF-Dokuments erkennen kann.
Mit Muster meine ich zum Beispiel „alle Absätze, die mit xxx beginnen und mit zzz enden“.
Ich muss in der Lage sein, diese Daten aus zwei Dokumenten zu sammeln und sie miteinander zu vergleichen und eine Excel-Tabelle mit den Unterschieden zu erstellen
Gibt es Tools, die mir dabei helfen können? vorzugsweise Open-Source. Ich werde es unter Windows verwenden und es muss FOSS sein, und wenn es nicht verfügbar ist, wäre eine Bibliothek (mit einer C/C++-Schnittstelle) nett.
Verwenden Sie für MS-Word-Dokumente LibreOffice in der Befehlszeile. Es funktioniert mit .doc- und .docx-Dateien sowie anderen Formaten (vielleicht sogar PDFs, nicht sicher). Extrahieren Sie den Text wie folgt:
libreoffice --headless --cat my_file.doc
Und jetzt können Sie das einfach in ein Textsuchprogramm oder Ihren eigenen Code eingeben. Auf einem Unix-artigen System oder mit Cygwin unter Windows würden Sie es so machen:
libreoffice --headless --cat my_file.doc | grep "some_search_term"
Für PDF-Dokumente können Sie das pdftotext
Dienstprogramm verwenden:
pdftotext my_document.pdf - | grep "my_search_term"
Hier ist eine Download-Seite für Binärdateien oder Quellcode; und viele Linux-Distributionen packen es (obwohl der Name anders sein kann).
Mit einer recht flachen Lernkurve können Sie dies alles in Python mit ein paar Bibliotheken tun:
Der Prozess wird sein:
Merkmale dieser Lösung:
einpoklum
Eslam Gamal