Wie erstelle ich eine Offline-Kopie einer Website?

In den 90er Jahren habe ich Teleport Pro verwendet .

Was wäre heutzutage der richtige Weg, um eine vollständige Kopie einer Website zu speichern?

(einschließlich Dateien von CDN / Schriftarten / Quellkarten / Medien)


Eine Möglichkeit wäre, eine einfache Node.js-App mit npm-Modulen wie requestoder zu schreiben cheerio, aber ich möchte das Rad nicht neu erfinden.

(daher fragen)

Ich arbeite hauptsächlich am Mac, kann Windows verwenden, wenn sich die Software lohnt.

Was ist das Problem mit Teleport Pro?
Nicht sicher, was die Absicht der Frage ist. Ich habe tatsächlich ein Upgrade von Word 2.0 auf Windows 3.11 durchgeführt und gehofft, dass es moderne Apps gibt, die meinen Anforderungen entsprechen ... (ich erinnere mich, dass ich einige Probleme hatte)
Ich war nur neugierig zu wissen, wie es Teleport Pro heutzutage geht (z. B. Probleme mit neuen Betriebssystemen oder neuen Webtechnologien?), da ich es auch vor einem Jahrzehnt verwendet habe :) wget und HTTrack Website Copier sind übrigens auch ziemlich alt.

Antworten (3)

Sie können GNU wget verwenden :

  • kostenlos und Open-Source
  • Linux, Windows , Mac ( brew install wget)
  • CLI

Um eine Offline-Kopie der Website zu erstellen (auch bekannt als Spiegeln), verwenden Sie

wget --mirror --page-requisites --convert-links http://stackexchange.com
  • --mirror: Diese Option aktiviert Optionen, die zum Spiegeln geeignet sind. Diese Option schaltet Rekursion und Zeitstempel ein, stellt unendliche Rekursionstiefe ein und behält FTP-Verzeichnislisten bei. Es ist derzeit gleichbedeutend mit-r -N -l inf --no-remove-listing.
  • --page-requisites: Diese Option bewirkt, dass Wget alle Dateien herunterlädt, die zur korrekten Anzeige einer bestimmten HTML-Seite erforderlich sind. Dazu gehören Dinge wie eingebettete Bilder, Sounds und referenzierte Stylesheets.
  • --convert-links: Konvertieren Sie nach Abschluss des Downloads die Links im Dokument, damit sie für die lokale Anzeige geeignet sind. Dies betrifft nicht nur die sichtbaren Hyperlinks, sondern jeden Teil des Dokuments, der auf externe Inhalte verweist, wie z. B. eingebettete Bilder, Links zu Stylesheets, Hyperlinks zu Nicht-HTML-Inhalten usw.

FYI: JavaScript-Funktionalität für Wget .

Der Windows wget-Link ist jetzt veraltet - diese Version unterstützt SSL nicht richtig. Neuere Versionen sind unter foreverlybored.org/misc/wget erhältlich

Sie können HTTrack Website Copier verwenden :

  • kostenlos und Open Source (GNU General Public License Version 3)
  • Linux, Windows, Mac
  • GUI

Geben Sie hier die Bildbeschreibung ein

Geben Sie hier die Bildbeschreibung ein

Hey, das wollte ich empfehlen, als ich diese Frage sah;)
@NickWilde Ja, das ist eine ziemlich nette Anwendung, aber ich war immer sauer auf die lächerliche standardmäßige Bandbreitenbegrenzung, also empfehle ich stattdessen eher wget :)
Leider lädt HTTrack standardmäßig kein CSS, JS oder Bilder herunter. Wenn Sie versuchen, sie mit einer Include-Regel wie +*.csseinzuschließen, führt dies manchmal dazu, dass die App versucht, das gesamte Internet herunterzuladen! Argh. Sie müssen komplexe Einschluss-/Ausschlussregeln angeben, um dies zu umgehen. Ich wünschte, sie hätten das nicht so schmerzhaft gemacht. 😒

...was wäre der richtige Weg, um eine vollständige Kopie einer Website zu speichern?

Die kurze Antwort lautet, dass dies im Allgemeinen nicht möglich ist (im Sinne von „vollständig“), außer bei statischen HTML-Sites.

Die heutigen modernen "responsiven" Websites verlassen sich auf JS, das das DOM dynamisch mit AJAX aktualisiert, und wenn Sie nicht bereit sind, dieses JS auszuführen und das DOM erneut zu rendern, erhalten Sie nicht die vollständige Website.

Um zu verstehen, was ich meine, überlegen Sie sich, was es bedeuten würde, eine „vollständige Kopie“ von, sagen wir, maps.google.com zu speichern.

Tatsächlich hat z. B. wget Probleme mit JS: wget.addictivecode.org/FeatureSpecifications/JavaScript
Genau. Deshalb suche ich nach einer Software, die das für mich erledigen kann... :) #faul
Du hast meinen Punkt verfehlt. Was ist eine „Offline-Kopie“ einer Website mit dynamischen Inhalten, die sich alle paar Minuten ändern (wie zum Beispiel cnn.com)?
Ich erwarte keine Echtzeit-Updates auf der offlineKopie. Aktuelle Momentaufnahme würde genügen.