Ich habe eine PDF-Datei, die ein PDF-Format einer Zeitungsseite ist, die viele Artikel (Bild + Text) enthält, genau wie die Artikel, die wir in der Zeitung finden, die der Zeitungsverkäufer jeden Tag bei uns vorbeibringt.
Ich wollte fragen, ob es möglich ist, diese Artikel irgendwie aus dieser PDF-Datei zu schneiden, programmgesteuert mit einer Bibliothek oder mit einem Tool?
Wenn kein PDF, ist es dann möglich, diese Artikel aus dieser Bilddatei herauszuschneiden?
Ja ist es.
Okay, wie jetzt? Mann, das ist hart. Bei einem früheren Job habe ich geholfen, unseren PDF-Parser zu pflegen und zu erweitern. PDF ist eine Computersprache zum Festlegen von Seitenlayout und -inhalt. Es sind also alle Daten vorhanden, die Sie benötigen, aber es wäre eine große Aufgabe, sie zu automatisieren.
Andererseits, wenn Sie dies nur für eine kleine Anzahl von PDFs tun müssen, können Sie hoffen , dass der Text tatsächlich Text und keine Bilddaten ist, und sehen, ob das Kopieren/Einfügen funktioniert.
(Nun, nachdem dies gesagt wurde, hoffe ich, dass Sie die Erlaubnis des Urheberrechtsinhabers haben, dies zu tun, wenn Sie beabsichtigen, die Artikel weiterzuverbreiten.)
Paul Cézanne
Paul Cézanne