Extrahieren Sie Text aus zahlreichen PDF- und Word-Dateien

Ein Anwaltsfreund von mir hat Tausende von Dateien im PDF- und Word-Format. Aus diesen Dateien möchte er Namen und E-Mail-Adressen extrahieren, vorzugsweise im CSV- oder Excel-Format. Die Dateien haben auch keine einheitliche Struktur/Layout.

Kann jemand kostenpflichtige oder kostenlose Software vorschlagen, um diese Aufgabe zu erledigen?

Antworten (1)

Ich würde eine Python- Lösung verwenden.

Wenn die Word-Dateien im .docx-Format vorliegen, verfügt Python über eine Reihe von Bibliotheken wie docxpy und docx , die es ermöglichen, den Text aus Word-Docx-Dateien zu extrahieren. (In einem Dienstprogramm, das ich zum Verarbeiten von Word-Dateien verwende, verwende ich Python, um Word zum Konvertieren von .doc-Dateien in eine temporäre Datei im .docx-Format zu verwenden).

In computergenerierten PDF-Dateien ist der Text ebenfalls verfügbar und kann mit der Python- pdfminer- Bibliothek extrahiert werden - andernfalls versuchen Sie, OCR zu verwenden, was fehleranfällig ist.

Sobald Sie den Textinhalt der Datei haben, machen die Python- Regex- oder Re- Bibliotheken kurze Arbeit beim Auffinden von E-Mail-Adressen, und da die Namenselemente wahrscheinlich einer vorhersehbaren Platzierung und einem vorhersehbaren Muster folgen, können sie mit ziemlicher Sicherheit auch gefunden werden.

Die Ausgabe im .csv-Format ist mit der csv- Bibliothek einfach und es gibt auch Bibliotheken, um direkt in das Excel-Format zu schreiben .

Alle oben genannten sind Free, Gratis & Open Source und laufen unter mehreren Betriebssystemen - es braucht nur jemanden, der ein paar Stunden Arbeit erledigt - während es online viel Hilfe gibt, gibt es auch Bücher, die helfen können, wie Automate the Boring Sachen mit Python . Ich bin nicht der Autor oder in irgendeiner anderen Weise mit diesem Buch verbunden!

Python ist eine Art Programmiersprache und nicht wirklich eine Software. Ich bin mir nicht sicher, ob ein Anwalt Programmierkenntnisse hat.
Meine Erfahrung ist, dass die meisten Anwälte kluge Leute sind und Python weithin als eine schnell zu erlernende Sprache erwähnt wird - ich bin ziemlich sicher, dass sie, möglicherweise mit ein wenig Hilfe, die oben erwähnte Software erfolgreich einsetzen könnten.
Ich habe nicht gesagt, dass Anwälte dumm sind oder so, aber Programmieren ist etwas ganz anderes als das, was Anwälte tun. Und Python ist eine wirklich seltsame Programmiersprache, die selbst für Leute mit Programmierkenntnissen nicht leicht zu erlernen ist.