Wie kann man Bilder und Text aus einer PDF-Datei extrahieren?

Question

Wie kann man Bilder und Text aus einer PDF-Datei extrahieren?

pdf
xml
json
Software

gabitzisch

Ich muss ein Tool erstellen, das Text und Bilder aus PDF-Dateien nimmt und in einer responsiven HTML-Datei rendert. Ich muss die Positionierung der Elemente nicht beibehalten, aber die Reihenfolge ist wichtig.

Das Problem, mit dem ich konfrontiert bin, ist die Text- und Bildextraktion aus PDF-Dateien.

Ich habe einige Tools ausprobiert, die PDF in HTML umwandeln, aber diese orientieren sich mehr an der visuellen Wiedergabe der Datei (absolute Positionierung, Absätze in Zeilen gebrochen). Ich brauche etwas, um mir einen Feed mit Absätzen und Bildern bereitzustellen.

Irgendwelche Ideen dafür? Es macht mir nichts aus, auch nach kostenpflichtigen Tools zu suchen.

Danke schön!

Ryan

Mit welchen Inhalten haben Sie es zu tun? Zeitschriften, Fachzeitschriften, Lehrbücher, Zeitungen, Jahresabschlüsse? Der Grund, warum Sie Schwierigkeiten haben, eine Lösung zu finden, ist, wie Sie aus einem Geographie-Lehrbuch für die Schule ein reflowfähiges HTML machen? Oder eine Zeitschrift? Die Bilder, die Schriftart und -größe des Textes sind oft eng miteinander verbunden, und das Brechen würde zu Kauderwelsch führen. Auf der anderen Seite ist eine wissenschaftliche Arbeit viel einfacher, obwohl Sie immer noch Spalten und Absätze herausfinden müssen, also nicht trivial.

Antworten (4)

Wie kann man Bilder und Text aus einer PDF-Datei extrahieren?

Mit welchen Inhalten haben Sie es zu tun? Zeitschriften, Fachzeitschriften, Lehrbücher, Zeitungen, Jahresabschlüsse? Der Grund, warum Sie Schwierigkeiten haben, eine Lösung zu finden, ist, wie Sie aus einem Geographie-Lehrbuch für die Schule ein reflowfähiges HTML machen? Oder eine Zeitschrift? Die Bilder, die Schriftart und -größe des Textes sind oft eng miteinander verbunden, und das Brechen würde zu Kauderwelsch führen. Auf der anderen Seite ist eine wissenschaftliche Arbeit viel einfacher, obwohl Sie immer noch Spalten und Absätze herausfinden müssen, also nicht trivial.

nvillalobos · Answer 1

Wenn ein kommerzielles SDK für Sie in Frage kommt, können Sie sich den LEADTOOLS Document Converter ansehen. Haftungsausschluss: Ich bin ein Mitarbeiter dieses Produkts

Mit dem Document Converter SDK von LEADTOOLS können Sie in und aus jedem Dokument- oder Rasterbildformat konvertieren, wie z.

Adobe Acrobat PDF und PDF/A Microsoft Office DOC/DOCX, XLS/XLSX,
PPT/PPTX-, PST-, EML-, MSG- und XPS-Formate CAD-Formate wie DXF,
DWG und DWF TIFF, JPEG, PNG, EXIF, BMP und hunderte weitere Raster
Bildformate Plain Text, RTF, HTML, MOBI, ePUB und mehr IBM AFP,
MO: DCA, IOCA und PTOCA

Es gibt auch eine kostenlose 60-Tage-Testversion, damit Sie es vor dem Kauf ausprobieren können.

Haftungsausschluss: Ich bin ein Mitarbeiter dieses Produkts

AndreasF · Answer 2

Die Apache pdfbox-App kann sowohl Test- als auch Bilder aus PDF-Dokumenten extrahieren. Es ist eine kostenlose Software und einfach zu bedienen.

https://pdfbox.apache.org/1.8/commandline.html

Joe Gromny · Answer 3

PDFMate PDF Converter Free kann das. Starten Sie das Programm, wählen Sie TXT als Ausgabeformat und klicken Sie dann auf die Schaltfläche „Konvertieren“.

Brandon Haugen · Answer 4

Haftungsausschluss: Ich arbeite für Datalogics als Produktmanager, der für die Entwicklung solcher Produkte verantwortlich ist.

Es gibt eine Reihe von Tools, die bereits zum Konvertieren von PDF in HTML entwickelt wurden. Müssen Sie wirklich selbst eines erstellen? Oder suchen Sie etwas, das genau das tut, was Sie wollen? Die Anforderungen sind etwas vage.

Wenn Sie jedoch etwas erstellen möchten, tun Sie sich selbst einen Gefallen und besorgen Sie sich ein zuverlässiges SDK für die Arbeit mit PDFs und arbeiten Sie sich durch das Extrahieren von Text und Bildern. Es gibt eine Reihe von SDKs, die Ihnen dabei helfen können (in alphabetischer Reihenfolge nach Firmennamen).

BCL Technologies easyPDF-SDK
Datalogics
- Adobe PDF-Bibliothek
- PDF-Java-Toolkit
ich schreibe
Solide Dokumente

Wenn Sie nach einem Tool suchen, das die PDF-zu-HTML-Konvertierung für Sie durchführt und Sie basierend auf Ihren Fragen 90 % des Weges dorthin bringen sollte, werfen Sie einen Blick auf unser Produkt PDF Alchemist . Es verwendet keine absolute Positionierung und rekonstruiert den Text in Lesereihenfolge (auch wenn er nicht so im PDF gespeichert ist). Die andere Option ist PDFix , ich erinnere mich nicht, ob sie die absolute Positionierung verwenden oder nicht (oder ob es eine Option zum Deaktivieren der absoluten Positionierung gibt).

Wie kann man Bilder und Text aus einer PDF-Datei extrahieren?

gabitzisch

Ryan

Antworten (4)

nvillalobos

AndreasF

Joe Gromny

Brandon Haugen

Schnell wechselnder Datenfeed für Softwaredemonstration (Daten)

Akademische Lebenslaufsoftware mit PDF- und HTML-Ausgabe

Generieren von PDFs aus XML-Kommentaren

Auf der Suche nach einem JavaScript-Framework zum Zeichnen von Dashboards basierend auf einer XML- oder JSON-Beschreibung

Gibt es eine kostenlose Datenmodellierungssoftware, die das Schema in ein anderes maschinenlesbares Format als SQL exportiert?

Wie kann man auf iPads iBooks Hervorhebungen für PDF-Dateien anzeigen lassen?

Wie deaktiviere ich die PDF-Bearbeitung in der Vorschau-App?

Kann ich die Seitenumbrüche in PDF-Dateien entfernen (oder Postscript-Dokumente neu fließen lassen)?

XML-Inspektionstool

Ein virtueller Drucker, der auf ein Design druckt und es dann unter Windows auf dem Computer speichert