Artikel aus einer Foto- oder PDF-Zeitungsseite schneiden [geschlossen]

Ich habe eine PDF-Datei, die ein PDF-Format einer Zeitungsseite ist, die viele Artikel (Bild + Text) enthält, genau wie die Artikel, die wir in der Zeitung finden, die der Zeitungsverkäufer jeden Tag bei uns vorbeibringt.

Ich wollte fragen, ob es möglich ist, diese Artikel irgendwie aus dieser PDF-Datei zu schneiden, programmgesteuert mit einer Bibliothek oder mit einem Tool?

Wenn kein PDF, ist es dann möglich, diese Artikel aus dieser Bilddatei herauszuschneiden?

Willkommen bei photo.stackexchange. Ich habe geantwortet, aber ich denke, dies wird als Off-Topic geschlossen.
Diese Frage scheint nicht zum Thema zu gehören, da es um die Manipulation einer PDF-Datei geht, nicht um Fotografie.

Antworten (1)

Ja ist es.

Okay, wie jetzt? Mann, das ist hart. Bei einem früheren Job habe ich geholfen, unseren PDF-Parser zu pflegen und zu erweitern. PDF ist eine Computersprache zum Festlegen von Seitenlayout und -inhalt. Es sind also alle Daten vorhanden, die Sie benötigen, aber es wäre eine große Aufgabe, sie zu automatisieren.

Andererseits, wenn Sie dies nur für eine kleine Anzahl von PDFs tun müssen, können Sie hoffen , dass der Text tatsächlich Text und keine Bilddaten ist, und sehen, ob das Kopieren/Einfügen funktioniert.

(Nun, nachdem dies gesagt wurde, hoffe ich, dass Sie die Erlaubnis des Urheberrechtsinhabers haben, dies zu tun, wenn Sie beabsichtigen, die Artikel weiterzuverbreiten.)

OCR-Software – Die optische Zeichenerkennung erfolgt bei Bildern, die Text enthalten. Ergebnis ist eine Textdatei.
@Paul Danke für die Antwort, ich habe Foto oder PDF erwähnt, da die Quelle, die mir gegeben wurde, in beiden Formaten vorliegen könnte. Der Text im PDF/Foto ist in Hindi-Sprache. Können Sie vorschlagen, wie ich diese Artikel aus einem PDF/Foto schneiden kann? Ich meine, um Technologie zu bitten, die ich verstehen muss, oder um Bibliotheken, falls ich welche verwenden muss. Alle Ressourcen werden hilfreich sein. Danke für die erneute Antwort.
Leider war all diese Arbeit für einen ehemaligen Arbeitgeber. Die gute Nachricht ist, dass die PDF-Spezifikation öffentlich ist, sodass Sie einen Parser schreiben können. Die schlechte Nachricht ist, dass die Spezifikation riesig ist. PDF ist in Postscript geschrieben, daher sollte jeder Postscript-Parser funktionieren, aber ich denke, wenn Sie kein Open-Source-Paket finden, haben Sie Ihre Arbeit für Sie erledigt.
Siehe podofo.sourceforge.net , ich weiß nichts darüber, es war der erste Google-Treffer bei meiner Suche.
Ich verwende github.com/yob/pdf-reader , um automatisierte Tests mit von mir generierten PDFs durchzuführen. Es ist kein Kommandozeilentool, sondern eine (Ruby-)Bibliothek.