Gibt es robustere Tools als Automator, um Text aus mehreren PDF-Dateien zu extrahieren?

Es gibt eine Aktion in Automator, mit der Sie programmgesteuert „ PDF-Text extrahieren “ können, dies schlägt jedoch fehl, wenn eine moderate Anzahl von Dateien (25 bis 100) zugeführt wird. Schlimmer noch, es schlägt fehl, ohne dass irgendetwas Hilfreiches protokolliert wird, außer einer Meldung, dass "Automator Unexpectedly Quit".

Kennt jemand einen entsprechenden Befehl, um dies in Applescript zu tun? Ich suche nach Tools, mit denen ich mehr Kontrolle über Dinge wie Protokollierung und Fehlerbehandlung habe, damit ich PDF-Dateien effizienter in ein Textformat verarbeiten kann.

Um triviale Antworten wie „Ja“ und „Nein“ zu vermeiden und vielleicht Applescript zu verwenden, um eine Automator-App aufzurufen, um die Extraktion durchzuführen, erwägen Sie bitte zu erklären, warum Automator nicht das richtige Tool für Sie ist. Je mehr "Warum" Sie hinzufügen können, desto einfacher ist es für jemanden zu antworten. Sie müssen jedoch nichts unternehmen – vielleicht hat jemand mit den bereitgestellten Details genau die Antwort, die Sie suchen.
@bmike Ein Teil des Problems ist, dass der Automator immer wieder abstürzt, wenn ich versuche, den Textextraktions-Workflow zu implementieren ... und die Abstürze "zufällig" erscheinen. dh der Workflow wird eine andere Anzahl von PDF-Dateien durchlaufen, Text gut extrahieren und dann wird Automator mit "Automator Quit Unexpectedly" sterben ... Also ... Automator macht den Trick nicht ... Ich kann es vielleicht Fügen Sie eine Fehlerbehandlung hinzu, wenn bestimmte PDF-Dateien die Abstürze verursachen (was nicht wahrscheinlich erscheint), aber am Ende gibt mir Applescript eine feinere Kontrolle darüber, was ich tue.
@ user141146 Sie könnten es mit sejda.com versuchen

Antworten (1)

Ich weiß nicht, wie es mit anderen Optionen verglichen wird, aber Sie könnten pdfotext verwenden. Es kann mit installiert werden brew install xpdf.

do shell script "/usr/local/bin/pdftotext /usr/share/doc/bash/bash.pdf -" without altering line endings

Calibre enthält auch einige Befehlszeilenprogramme:

/Applications/calibre.app/Contents/MacOS/ebook-convert /usr/share/doc/bash/bash.pdf /tmp/output.txt

Verwandte Fragen: