Automatische Konvertierung der Folge von Webseiten in pdf [Duplikat]

Es kommt häufig vor, dass ich eine Folge von HTML-Seiten von einer Website senden möchte, alle zusammen in einer einzigen Datei, damit ich sie in meinem E-Reader lesen kann.

Diese Online-Ressource kann beispielsweise in eine Folge von PDF- Dateien umgewandelt werden .

Ich habe keine Einschränkungen im Betriebssystem (Linux oder Windows) und sowohl kostenpflichtige als auch kostenlose Lösungen sind in Ordnung. Eine Online-Lösung (eine Website, die beliebige URLs konvertiert, die Sie eingeben) ist am besten.

Calibre macht so etwas mit einem Konzept namens "Recipes". Damit ist kein LaTeX nötig. Während ich Calibre für meine eBooks (EPUB/MOBI) verwende, habe ich es noch nie zum Bündeln einer Website als PDF verwendet, daher kann ich nicht sagen, wie gut es funktioniert (daher ein Kommentar und keine Antwort).
Meine Frage ist, wie haben sie das PDF erstellt, das ich als Beispiel in die Frage eingefügt habe? Was ich daran mag, ist, dass wenn Sie auf einen Link klicken, er zu einem entsprechenden Teil in PDF springt und der Browser nicht geöffnet wird.
Jeder gute Konverter sollte das können. Ich kann Ihnen nichts über das "Wie" sagen (was für diese Seite etwas zu weit gehen würde, da es eher eine Entwicklungsfrage ist).
Ist der "Wie"-Teil etwas Ähnliches wie in diesem in Python geschriebenen Beispiel ? Es überprüft den HTML-Code der Startseite, lädt ihn herunter, findet den Link für die nächste Seite und führt den vorherigen Schritt aus, bis die Seite nicht mehr heruntergeladen werden kann.

Antworten (1)

Pandoc kann eine oder mehrere Webseiten nehmen und sie in eine Reihe von Formaten konvertieren, einschließlich EPUB und PDF, aber für PDF benötigen Sie auch einen Latex-Prozessor wie MiKTeX .

Beispiele:

1: Laden Sie das Make-Handbuch herunter und konvertieren Sie es in pdf:

pandoc -s -r html http://www.gnu.org/software/make/ -o make_manual.pdf

2: Laden Sie sowohl die make- als auch die awk-Handbücher herunter und kombinieren Sie sie zu einem epub:

pandoc -s -r html http://www.gnu.org/software/make/ http://www.gnu.org/software/gawk/manual/gawk.html -o make_awk_man.epub

Pandoc ist:

  • Kostenlos, Gratis & Open Source
  • Plattformübergreifendes Linux, OS-X und Windows
  • Kann aus jeder zugänglichen Quelle, einschließlich online, lesen :
    • commonmark, docbook, docx, epub, Schellfisch, html, eigener json, Latex,
    • markdown, markdown_github, markdown_mmd, markdown_phpextra,
    • markdown_strict, mediawiki, native, odt, opml, org, rst, t2t,
    • Textil, Wiki
  • Schreiben können:
    • asciidoc, beamer, commonmark, kontext, docbook, docx, dokuwiki,
    • dzslides, epub, epub3, fb2, Schellfisch, html, html5, icml, json,
    • latex, mann, markdown, markdown_github, markdown_mmd,
    • markdown_phpextra, markdown_strict, mediawiki, nativ, odt,
    • opendocument, opml, org, pdf mit Latex-Prozessor , einfach, offenbarenjs, rst, rtf, s5,
    • rutschig, rutschig, texinfo, textil
  • Word muss nicht installiert werden, um docx usw. zu generieren.

Sie werden feststellen, dass manchmal die Ausgabedarstellung und das Layout nicht genau mit dem Original übereinstimmen – insbesondere wenn das Original ungewöhnliche Schriftarten verwendet, die nicht auf Ihrem System installiert sind und nur in Ihrem Browser angezeigt werden.

GEFAHR Sobald Sie anfangen, Pandoc zu verwenden, ist es schwer, damit aufzuhören.

Danke Steve, pandoc sieht nach einem interessanten Programm aus. Ist es möglich, eine Pandoc-Sequenz von HTML-Seiten (sagen wir eine TXT-Datei, die eine Liste von HTML-Seiten enthält) zu geben und sie alle in ein einzigartiges PDF zu konvertieren? oder sollte ich vielleicht jedes pdf einzeln konvertieren und am ende alle zusammenfügen? Eine andere Frage: Was ich an PDF mag, das ich in meiner Frage gesendet habe, ist, dass alle Hyperlinks in Hyperlinks umgewandelt werden, die innerhalb des PDF funktionieren, so dass, wenn Sie auf den Link klicken, es zum entsprechenden Teil im PDF springt. Kann Pandoc das?
Ja, Sie können ihm eine Folge von HTML-Dateien geben, und es kann alle Dateien in ein PDF oder Epub packen, und interne und externe Links bleiben erhalten, obwohl ich es nicht mit mehreren Eingaben versucht habe - Sie können eine Datei mit einer Liste von Quellen leiten aber ich glaube nicht, dass Sie standardmäßig aus einer Eingabelistendatei lesen können. Hinweis: Es kann keine gelesenen PDFs konvertieren. Wenn Sie also später zusammenbauen möchten, müssen Sie Markdown oder etwas anderes anstelle von PDF wie in Intermediate verwenden.