Ein Anwaltsfreund von mir hat Tausende von Dateien im PDF- und Word-Format. Aus diesen Dateien möchte er Namen und E-Mail-Adressen extrahieren, vorzugsweise im CSV- oder Excel-Format. Die Dateien haben auch keine einheitliche Struktur/Layout.
Kann jemand kostenpflichtige oder kostenlose Software vorschlagen, um diese Aufgabe zu erledigen?
Ich würde eine Python- Lösung verwenden.
Wenn die Word-Dateien im .docx-Format vorliegen, verfügt Python über eine Reihe von Bibliotheken wie docxpy und docx , die es ermöglichen, den Text aus Word-Docx-Dateien zu extrahieren. (In einem Dienstprogramm, das ich zum Verarbeiten von Word-Dateien verwende, verwende ich Python, um Word zum Konvertieren von .doc-Dateien in eine temporäre Datei im .docx-Format zu verwenden).
In computergenerierten PDF-Dateien ist der Text ebenfalls verfügbar und kann mit der Python- pdfminer- Bibliothek extrahiert werden - andernfalls versuchen Sie, OCR zu verwenden, was fehleranfällig ist.
Sobald Sie den Textinhalt der Datei haben, machen die Python- Regex- oder Re- Bibliotheken kurze Arbeit beim Auffinden von E-Mail-Adressen, und da die Namenselemente wahrscheinlich einer vorhersehbaren Platzierung und einem vorhersehbaren Muster folgen, können sie mit ziemlicher Sicherheit auch gefunden werden.
Die Ausgabe im .csv-Format ist mit der csv- Bibliothek einfach und es gibt auch Bibliotheken, um direkt in das Excel-Format zu schreiben .
Alle oben genannten sind Free, Gratis & Open Source und laufen unter mehreren Betriebssystemen - es braucht nur jemanden, der ein paar Stunden Arbeit erledigt - während es online viel Hilfe gibt, gibt es auch Bücher, die helfen können, wie Automate the Boring Sachen mit Python . Ich bin nicht der Autor oder in irgendeiner anderen Weise mit diesem Buch verbunden!
Konvertieren
Steve Barnes
Konvertieren