Ich habe eine Reihe von PDF-Dateien/Formularen, die alle in einem standardisierten Format vorliegen. Sie enthalten Informationen wie Versionsverlauf, Autor, wer das Dokument signiert hat und auf welche Dokumente es verweist. Ich muss diese Informationen extrahieren, um sie in eine Datenbank einzuspeisen, die Informationen über die Dokumente enthält. Ich bin mir ziemlich sicher, dass ich dies mit einem oder mehreren regulären Ausdrücken tun könnte, aber ich bin mir nicht ganz sicher, wie ich vorgehen soll. Ich möchte den Prozess auch automatisieren, sodass neue Dokumente, wenn sie erstellt werden, dem System hinzugefügt werden und das System alle Dokumente auf einer Webseite ansieht und die Informationen extrahiert.
.pdf
Es ist möglich, das Dokument in eine Textdatei umzuwandeln . Danach sollte es möglich sein, ein Stück Text zu extrahieren, je nachdem, wie regelmäßig es mit regulären Ausdrücken sein wird. Sie haben nicht angegeben, welches Betriebssystem Sie verwenden, aber *nix
es ist möglich, dies mit dem pdftotext
Befehlszeilentool und einer Kombination aus grep/sed/cut/awk/perl
.
Um Dokumente von/auf einen Webserver herunterzuladen/hochzuladen, können Sie scp
bei SSH
aktiviertem Zugriff oder verwenden lftp
, Metadaten lokal extrahieren und auf einen Webserver übertragen. Sie müssen eine Liste der Dokumente haben, die Sie bereits bearbeitet haben. Alternativ müssen Sie nicht einmal .pdf
vom Webserver herunterladen, da Sie es direkt auf dem Webserver verarbeiten oder ein Remote-Verzeichnis mit mounten können sshfs
. Sie können die Operation zum Extrahieren von Metadaten jedes Mal auslösen, wenn eine neue .pdf
Datei hinzugefügt wird, indem Sie einen inotify
Mechanismus oder eine Art Webserver-Callback verwenden oder sie regelmäßig mit einem crontab
Job ausführen.
Ich bin mir immer noch nicht sicher, ob Sie lieber *nix
oder Windows
. Wenn Sie letzteres bevorzugen, kann ich Ihnen nicht helfen, da ich es nicht verwende.
Arkadiusz Drabczyk
exiftool
zu extrahieren und ihre Ausgabe mit regulären Ausdrücken zu analysieren..pdf
Zum Beispiel, umCreator
ein gegebenes zu finden.pdf
:exiftool doc.pdf | grep "^Creator" | perl -pe 's,^Creator.+: (.*)$,\1,'
. So finden Sie einen Autor:exiftool doc.pdf | grep "^Author" | perl -pe 's,^Author.+: (.*)$,\1,'
Hinweismein
Arkadiusz Drabczyk
.pdf
Es ist möglich, das Dokument in eine Textdatei umzuwandeln . Danach sollte es möglich sein, ein Stück Text zu extrahieren, je nachdem, wie regelmäßig es mit regulären Erweiterungen sein wird. Sie haben nicht angegeben, welches Betriebssystem Sie verwenden, aber*nix
es ist möglich, dies mit dempdftotext
Befehlszeilentool und einer Kombination aus zu automatisierengrep/sed/cut/awk/perl
Hinweismein
Arkadiusz Drabczyk
man pdftotext
: stehtpdftotext [options] [PDF-file [text-file]]
. Das sagt es auchPdftotext reads the PDF file, PDF-file, and writes a text file, text-file. If text-file is not specified, pdftotext converts file.pdf to file.txt. If text-file is ´-', the text is sent to stdout.
. Also zum Beispiel:pdftotext <doc>.pdf
wird<doc>.txt
im selben Verzeichnis produzieren.Hinweismein
Arkadiusz Drabczyk
pdftotext
und es viel schneller lernen. Um Dokumente von/auf einen Webserver herunterzuladen/hochzuladen, können Siescp
beiSSH
aktiviertem Zugriff oder verwendenlftp
, Metadaten lokal extrahieren und auf einen Webserver übertragen. Sie müssen eine Liste der Dokumente haben, die Sie bereits bearbeitet haben. Alternativ müssen Sie nicht einmal.pdf
vom Webserver herunterladen, da Sie es direkt auf dem Webserver verarbeiten oder ein Remote-Verzeichnis mit mounten könnensshfs
.Arkadiusz Drabczyk
.pdf
Datei hinzugefügt wird, indem Sie eineninotify
Mechanismus oder eine Art Webserver-Callback verwenden oder sie regelmäßig mit einemcrontab
Job ausführen. Ich bin mir immer noch nicht sicher, ob Sie es bevorzugen*nix
oder Windows. Wenn Sie letzteres bevorzugen, kann ich Ihnen nicht helfen, da ich es nicht verwende. Übrigens : Es ist bereits zu viel für einen Kommentar. Wenn Ihnen das gefällt, werde ich es in eine Antwort umwandeln, und Sie können es akzeptieren.Hinweismein
Hinweismein