Ich suche nach serverseitiger Software, um eine sehr große Anzahl von E-Mails zu analysieren und die E-Mail-Signatur zu extrahieren. Ganz konkret möchte ich den Text einer E-Mail-Nachricht eingeben, die Signatur identifizieren und die Daten extrahieren.
Das wichtigste Merkmal ist die gut geschriebene Mustererkennung. Tatsächlich wäre ich mit einem Textparser zufrieden, da ich bequem nur den Körper als große Zeichenfolge bereitstelle.
Die Sprache ist mir egal.
Sie können dies sehr einfach tun, entweder client- oder serverseitig, indem Sie einige Python -Skripte verwenden .
Python, das nur die eingebauten Bibliotheken verwendet, kann:
Leider gibt es eine Reihe von uneinheitlichen Möglichkeiten, eine Signatur zu bezeichnen: Meine Signatur, wie sie von Thunderbird, Outlook usw. erstellt wird:
--
Steve (Gadget) Barnes
Any opinions in this message are my personal opinions and do not reflect those of my employer.
Beachten Sie die Zeile, die nur Bindestrich, Bindestrich, Leerzeichen enthält - dies ist der "Standard", aber einige andere Clients hängen Dateien, Bilder, HTML-Haufen usw. an. Ebenso die Konventionen bezüglich des oberen, unteren oder verschachtelten Postens neuer Inhalte in einer E-Mail Austausch sind weitgehend eine Sache der Konvention und die Markierung von zuvor empfangenem Text durch Einrücken oder durch Präfixieren jeder Zeile der vorherigen Nachricht mit >
oder einigen anderen Zeichen ist wiederum sowohl vom E-Mail-Client als auch häufig von den Einstellungen des Benutzers abhängig.
Ich würde vorschlagen, eine inkrementelle Suchmethode zu verwenden, bei der Sie möglicherweise versuchen, nach Folgendem zu suchen:
-- \n
gefolgt von einer oder mehreren nicht leeren Zeilen. f1=re.compile(r'^-- \n(.+)', flags=re.MULTILINE+re.DOTALL)
sollte gut tun.Während Sie an der Entwicklung Ihres Satzes regulärer Ausdrücke arbeiten, kann ich Ihnen dringend empfehlen, einen Python-Regex-Checker wie pythex zu verwenden .
Natürlich wird dies durch die Möglichkeit erschwert, eine vCard, einen Scan einer Unterschrift usw. anzuhängen, und durch die Tatsache, dass jede gegebene Nachricht reiner Text, HTML oder beides sein kann und am ärgerlichsten manche Leute nur ein Wort senden, oder andere, Dokument als E-Mail .
Soweit ich weiß, gibt es keine aktuelle Bibliothek, die alle diese Möglichkeiten abdeckt, möglicherweise könnten Sie rechtzeitig eine beisteuern.
Mika
Steve Barnes