Ich habe eine Reihe von miteinander verflochtenen HTML-Webseiten, die ich in das EPUB-Format konvertieren möchte.
Zum Beispiel ist die Indexseite bei
http://example.com/documentation/index/index.html
Während die von den Indexseiten verlinkten Kapitel in sind
http://example.com/documentation/chapters/*
Auch einige Bilder und Formatierungsdateien sind dabei
http://example.com/css/*
http://example.com/img/*
Gibt es ein Tool zum Herunterladen und rekursiven Konvertieren der Dokumentation unter Berücksichtigung dieser spezifischen Einschränkungen in das epub-Format?
Ich kann die Seiten mit httrack so herunterladen:
httrack http://example.com/documentation/index/index.html +http://example.com/documentation/index/* +http://example.com/documentation/chapters/* +http://example.com/css/* +http://example.com/img/*
… und wandle die HTML-Seiten mit tidy-html5 in XHTML um
tidy -asxhtml -numeric < index.html > index.xhml
aber ich habe immer noch kein Tool gefunden, um den gesamten Baum auf einmal in EPUB zu konvertieren.
Ich habe Calibre auch einmal ausprobiert, aber die Benutzeroberfläche ist unfreundlich, also habe ich wirklich nicht versucht, dieses Tool zu verstehen. Wenn ich die Calibre-Benutzeroberfläche lernen muss, schreibe ich lieber ein Bash-Skript, um die Arbeit zu erledigen.
Obwohl Sie nicht immer perfekte Ergebnisse liefern, können Sie Pandoc verwenden , um HTML aus dem Internet herunterzuladen und ein Epub auf einmal zu generieren - Sie müssen Pandoc möglicherweise die Reihenfolge der Seiten/Kapitel mitteilen und/oder welche Seiten, aber alle referenzierten CSS/Bilder sollten auch automatisch heruntergeladen und eingebettet werden.
Izzy
ebook-convert
CLI . Und ja, in meinem Fall ist es normalerweise ein Bash-Skript, das die Arbeit erledigt: Ich verwende ein Skelett mit "Platzhaltern" (Variablen) für Quelldetails :)