Wie kann man Bilder und Text aus einer PDF-Datei extrahieren?

Ich muss ein Tool erstellen, das Text und Bilder aus PDF-Dateien nimmt und in einer responsiven HTML-Datei rendert. Ich muss die Positionierung der Elemente nicht beibehalten, aber die Reihenfolge ist wichtig.

Das Problem, mit dem ich konfrontiert bin, ist die Text- und Bildextraktion aus PDF-Dateien.

Ich habe einige Tools ausprobiert, die PDF in HTML umwandeln, aber diese orientieren sich mehr an der visuellen Wiedergabe der Datei (absolute Positionierung, Absätze in Zeilen gebrochen). Ich brauche etwas, um mir einen Feed mit Absätzen und Bildern bereitzustellen.

Irgendwelche Ideen dafür? Es macht mir nichts aus, auch nach kostenpflichtigen Tools zu suchen.

Danke schön!

Mit welchen Inhalten haben Sie es zu tun? Zeitschriften, Fachzeitschriften, Lehrbücher, Zeitungen, Jahresabschlüsse? Der Grund, warum Sie Schwierigkeiten haben, eine Lösung zu finden, ist, wie Sie aus einem Geographie-Lehrbuch für die Schule ein reflowfähiges HTML machen? Oder eine Zeitschrift? Die Bilder, die Schriftart und -größe des Textes sind oft eng miteinander verbunden, und das Brechen würde zu Kauderwelsch führen. Auf der anderen Seite ist eine wissenschaftliche Arbeit viel einfacher, obwohl Sie immer noch Spalten und Absätze herausfinden müssen, also nicht trivial.

Antworten (4)

Wenn ein kommerzielles SDK für Sie in Frage kommt, können Sie sich den LEADTOOLS Document Converter ansehen. Haftungsausschluss: Ich bin ein Mitarbeiter dieses Produkts

Mit dem Document Converter SDK von LEADTOOLS können Sie in und aus jedem Dokument- oder Rasterbildformat konvertieren, wie z.

  • Adobe Acrobat PDF und PDF/A Microsoft Office DOC/DOCX, XLS/XLSX,
  • PPT/PPTX-, PST-, EML-, MSG- und XPS-Formate CAD-Formate wie DXF,
  • DWG und DWF TIFF, JPEG, PNG, EXIF, BMP und hunderte weitere Raster
  • Bildformate Plain Text, RTF, HTML, MOBI, ePUB und mehr IBM AFP,
  • MO: DCA, IOCA und PTOCA

Es gibt auch eine kostenlose 60-Tage-Testversion, damit Sie es vor dem Kauf ausprobieren können.

Haftungsausschluss: Ich bin ein Mitarbeiter dieses Produkts

Die Apache pdfbox-App kann sowohl Test- als auch Bilder aus PDF-Dokumenten extrahieren. Es ist eine kostenlose Software und einfach zu bedienen.

https://pdfbox.apache.org/1.8/commandline.html

PDFMate PDF Converter Free kann das. Starten Sie das Programm, wählen Sie TXT als Ausgabeformat und klicken Sie dann auf die Schaltfläche „Konvertieren“.

Haftungsausschluss: Ich arbeite für Datalogics als Produktmanager, der für die Entwicklung solcher Produkte verantwortlich ist.

Es gibt eine Reihe von Tools, die bereits zum Konvertieren von PDF in HTML entwickelt wurden. Müssen Sie wirklich selbst eines erstellen? Oder suchen Sie etwas, das genau das tut, was Sie wollen? Die Anforderungen sind etwas vage.

Wenn Sie jedoch etwas erstellen möchten, tun Sie sich selbst einen Gefallen und besorgen Sie sich ein zuverlässiges SDK für die Arbeit mit PDFs und arbeiten Sie sich durch das Extrahieren von Text und Bildern. Es gibt eine Reihe von SDKs, die Ihnen dabei helfen können (in alphabetischer Reihenfolge nach Firmennamen).

Wenn Sie nach einem Tool suchen, das die PDF-zu-HTML-Konvertierung für Sie durchführt und Sie basierend auf Ihren Fragen 90 % des Weges dorthin bringen sollte, werfen Sie einen Blick auf unser Produkt PDF Alchemist . Es verwendet keine absolute Positionierung und rekonstruiert den Text in Lesereihenfolge (auch wenn er nicht so im PDF gespeichert ist). Die andere Option ist PDFix , ich erinnere mich nicht, ob sie die absolute Positionierung verwenden oder nicht (oder ob es eine Option zum Deaktivieren der absoluten Positionierung gibt).