Gibt es eine kostenlose PDF-zu-HTML-Konvertierungssoftware?

Ich arbeite an einem Projekt, in dem ich sowohl HTML- als auch PDF-Dateien bearbeiten muss. Und dies erfordert viele HTML-zu-PDF- und PDF-zu-HTML-Konvertierungen.

Die Anforderungen sind:

  1. Es muss kostenlos und vorzugsweise Open Source sein
  2. Es muss vollständig offline sein
  3. Es muss stabil, zuverlässig und einen guten Ruf haben

Gibt es eine solche Software, und wenn ja, empfehlen Sie sie bitte.

Welches Betriebssystem? Einzelne Datei auf einmal oder benötigen Sie den Batch-Modus? Je mehr Informationen Sie uns geben können, desto mehr können wir Ihnen helfen.
Schauen Sie sich den beliebtesten eBook-Manager calibre-ebook.com an , der in beide Richtungen konvertiert, aber etwas namens HTMLZ verwendet, das ein komprimiertes (gezipptes) HTML mit einigen zusätzlichen Informationen ist. Siehe mobileread.com/forums/showthread.php?t=128076 und htmlz.topdf.com und goodreads.com/topic/show/734946-convert-to-html Ich poste keine Antwort, da dies einige Arbeit erfordern wird Ihren Teil, aber es sollte nicht viel sein und ich glaube, dass dies tun wird, was Sie wollen. Lassen Sie uns wissen, wie es geht.
Siehe auch: HTML-zu-PDF-Batch-Modus-Konverter (oder Bibliothek), der CSS respektiert @font-face? Schlüsselwörter: Prince (HTML -> PDF; sehr gute Qualität, verwende ich selbst), Pandoc. Überprüfen Sie auch diese Fragen . Und PDF Content Extraction Software (Stichwort: Poppler, funktioniert in beide Richtungen).
Probieren Sie die kostenlose Edition von Print2Flash aus . Es kann nicht nur PDF-Dokumente konvertieren, sondern auch Office-/Text-/Bilddateien und so weiter.

Antworten (7)

Schauen Sie sich die neueste Version von an mudraw. Es ist ein Befehlszeilentool aus der MuPDF -Toolfamilie .

mudraw -o out.html -F html in.pdf

Verwenden Sie nach Möglichkeit die neueste Version. Es hat einige neue und zusätzliche Funktionen erhalten (es kann mehr als nur PDF->HTML-Konvertierung):

$ mudraw
   Usage: mudraw [options] file [pages]
   -p -  password

   -o -  output file name (%d for page number)
   -F -  output format (default inferred from output file name)
         raster: png, tga, pnm, pam, pbm, pwg, pcl
         vector: svg, pdf, trace
         text: txt, html, stext

   -s -  show extra information:
         m - show memory use
         t - show timings
         f - show page features
         5 - show md5 checksum of rendered image

   -R -  rotate clockwise (default: 0 degrees)
   -r -  resolution in dpi (default: 72)
   -w -  width (in pixels) (maximum width if -r is specified)
   -h -  height (in pixels) (maximum height if -r is specified)
   -f -  fit width and/or height exactly; ignore original aspect ratio
   -B -  maximum bandheight (pgm, ppm, pam, png output only)

   -W -  page width for EPUB layout
   -H -  page height for EPUB layout
   -S -  font size for EPUB layout

   -c -  colorspace (mono, gray, grayalpha, rgb, rgba, cmyk, cmykalpha)
   -G -  apply gamma correction
   -I    invert colors

   -A -  number of bits of antialiasing (0 to 8)
   -D    disable use of display list
   -i    ignore errors

   pages comma separated list of page numbers and ranges

Aktualisierung (April 2016)

Die Aufrufkonvention des Tools wurde geändert. Es ist immer noch Teil der MuPDF-Familie, aber Sie führen es jetzt so aus:

mutool draw

pdf2htmlEX konvertiert PDFs genau in HTML und behält die Formatierung bei. Der generierte HTML-Code ist jedoch schwer programmgesteuert zu lesen und zu analysieren. Es ist kostenlos, Open Source und funktioniert offline auf einer Vielzahl von Plattformen.

https://github.com/coolwanglu/pdf2htmlEX

https://github.com/coolwanglu/pdf2htmlEX/wiki/Download

Some PDF to HTML Converter ist der einzige kostenlose Offline-PDF-zu-HTML-Konverter, den ich finden konnte. Hoffe, das funktioniert für Sie!

Die Software „Free PDF to HTML Converter“ (Sie finden sie hier: http://www.free-pdf-to-word.org/tutorials/freepdftohtmlconverter01_how_to_convert_pdf_to_html.html ) ist ziemlich gut. Ich habe damit mehrere PDFs in HTML-Dateien konvertiert und bin bisher mit der Ausgabe recht zufrieden. Es behält das Layout des PDFs recht gut bei und Sie können wählen, ob Sie die Bilder aus dem PDF in einem separaten Ordner speichern möchten oder nicht.

PS Der Download-Link ist irgendwo rechts, wo "Erforderliche Ressourcen" steht.

Calibre ist ein kostenloses Open-Source-Programm für Windows/Mac/Linux, das PDF-Dateien schnell in ein HTMLZ-Archiv konvertieren kann. Das HTMLZ-Archiv enthält eine index.html-Datei, in der sich die konvertierte .html-Datei befindet. Es enthält auch eine style.css-Datei für die Formatierung und kann manchmal einen Bilderordner enthalten, der Bilder enthält.

Ich war überrascht, wie gut Calibre beim Konvertieren von PDF-Büchern in .html ist, als ich es ausprobierte. Es hat die Textformatierung beibehalten und keine Fehler bei der Beibehaltung der Zeilenenden gemacht. Als ich Calibre an einer Zeitschrift oder einem Textdokument ausprobierte, das anfangs nicht gut formatiert war, waren die Ergebnisse nicht akzeptabel, es sei denn, die PDF-Datei wurde in einfachen Text konvertiert und dann manuell in einem Textverarbeitungsprogramm bearbeitet und als .html-Datei gespeichert . Das liefert perfekte Ergebnisse, ist aber sehr zeitaufwändig. Calibre kann nicht jede PDF-Datei gut konvertieren, aber es macht die meiste Zeit gute Arbeit, also ist es einen Versuch wert.

Eine Dokumentation des ebook-convertBefehls finden Sie unter manual.calibre-ebook.com/generated/en/ebook-convert.html

Ich weiß, dass Sie Standalone gesagt haben - aber wenn Sie mit Node arbeiten können - das ist das beste Node-Modul, das ich gefunden habe:

https://github.com/peterdemartini/html5-to-pdf

Um die Dinge einfacher zu machen – hier ist ein Node/Webpack-Projekt, das ich erstellt habe, um meinen Lebenslauf mit HTML zu erstellen

https://github.com/dwjohnston/cv

Hast du es pdf2htmlunter Linux versucht? Sowohl kostenlos als auch Free, funktioniert offline, wurde lange Zeit von vielen Distributionen gepackt.

https://linux.die.net/man/1/pdftohtml