Tägliches Speichern des Webarchivs automatisieren?

Ist es möglich, das Speichern einer Webseite (unter Verwendung des .webarchiveFormats) entweder mit Automator (in einem Hintergrundprozess) oder mit Terminal zu automatisieren?

Antworten (2)

Herunterladen & Speichern als Webarchiv

Ein Befehlszeilentool namens webarchiver lädt URLs herunter und speichert sie im .webarchiveFormat. Sie können dieses Tool über MacPorts installieren (leider kein Homebrew!) oder es mit XCode kompilieren. Ich bin ein XCode-Dummy, aber mit den hier gefundenen Anweisungen erfolgreich .

Wie zu bedienen:

webarchiver 0.5
Usage: webarchiver -url URL -output FILE 
Example: webarchiver -url http://www.google.com -output google.webarchive
-url    http:// or path to local file
-output File to write webarchive to

Schöne Dateinamen

Mit diesem langen Einzeiler für Terminal können Sie die gewünschte URL konfigurieren und eine Webarchivdatei mit dem Präfix JJJJ-MM-TT herunterladen:

URL="www.nytimes.com"; ./webarchiver -url "http://$URL" -output "/Users/<your username>/Desktop/$(date +"%Y-%m-%d-$URL.webarchive")"

Dadurch wird ein Webarchiv auf Ihrem Desktop gespeichert:

2014-02-10-www.nytimes.com.webarchive

Wenn Sie sich nicht sicher sind, was <your username>das ist, geben Sie whoamiTerminal.app ein (und drücken Sie natürlich die Eingabetaste).

Cron

Ich würde lieber verwenden launchd, da " von der Verwendung von cron unter OS X abgeraten wird " . Es gibt einen netten Launchd-Editor namens Lingon . Spaß haben!

Genialer Fund! Vielen Dank! Ich plane, dies mit Automator zu automatisieren (jedes Website-Archiv mit der Option „Run Shell Script“ auszuführen. Gibt es eine Möglichkeit auszuwählen, wo die Ausgabe erfolgen soll? (Im Moment scheint der Standardbereich ~/user statt ~/user/desktop) Danke.
Gern geschehen! Bitte sehen Sie sich die aktualisierte Antwort an.
Nochmals vielen Dank, dass Sie es gefunden haben. Ich habe Ihre Antwort als diejenige markiert, die die Frage gelöst hat (nachdem die Frage vor 275 Tagen zum ersten Mal gestellt wurde). Seitdem benutze ich Webarchiver und es ist unglaublich. Ich hatte nicht den Mut, dies zu automatisieren, also habe ich einfach die Codezeile in Automator eingefügt und als anklickbare Datei auf dem Desktop ausgegeben. Es war bisher ziemlich fantastisch. Leider sind die Dateigrößen der Ausgabe ziemlich groß (~3 MB, im Gegensatz zu den üblichen 0,5 MB), aber die Tatsache, dass es in sich geschlossen ist, bedeutet, dass es viel tragbarer ist.
Nur eine Warnung: Webarchiver wurde auch über Homebrew verfügbar gemacht (schau mal: brew info webarchiver)!

Ja ist die einfache Antwort mit beiden.

Ich bin auf meinem iPad unterwegs. Sie können jedoch den Unix-Befehl curl verwenden , um die Webseite herunterzuladen und an den Unix-Befehl textutil weiterzuleiten , der sie in eine Webarchivdatei ausgeben kann.

Bei Gelegenheit poste ich ein Beispiel.


Hier ist ein kleines Beispiel (schnell) von dem, was ich dachte. Geschrieben in Applescript, das Shell-Skriptbefehle ausführt.

  property agent : "Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10.6; en-US; rv:1.9.1.3) Gecko/20090824 Firefox/3.5.3"

property outPutFormat : "rtf"
property saveDIR : "/Users/USERNAME/Desktop/"
property fileName : "test2"

set theData to do shell script "curl " & " -A" & space & quoted form of agent & space & "http://weather.yahoo.com/france/auvergne/france-29332634/" as string


do shell script "echo " & quoted form of theData & "|textutil -format html -convert" & space & outPutFormat & space & "-stdin -output " & space & saveDIR & fileName & "." & outPutFormat

Obwohl dies funktioniert. Ich bin mit den Ergebnissen nicht sehr zufrieden. Dies liegt daran, dass curl und textutil nur den HTML-Code, aber keine Ressourcen verarbeiten.

Also arbeite ich an etwas anderem, das ein WebArchiv viel besser speichern wird. 90% da, aber es dauert etwas länger, bis ich schreibe

Ich würde mich sehr freuen, wenn Sie dies weiterverfolgen. Könnten Sie auch zeigen, wie dies im Rahmen eines Cron(Jobs) geschehen kann? Vielen Dank im Voraus!
was ist die webseite. Auch in meiner Eile, dir zu helfen, habe ich vergessen, dass es auf diese Weise funktioniert. Aber nur für die Vorderseite. Einige Ressourcendateien usw. werden jedoch nicht enthalten sein, sodass die Seite wackelig aussieht. Ich suche immer noch nach Möglichkeiten, das zu lösen. Aber können Sie mehr Details darüber liefern, warum und was Sie von der Seite wollen.
Rechts. Ich wollte Seiten von Nachrichtenseiten wie ft.com, nytimes.com, ... erfassen, damit ich die Trends der Schlagzeilen über die Monate und Jahre hinweg sehen kann. Mein Gedächtnis ist nicht so toll, also wäre das eine große Hilfe.
Anstelle eines Webarchivs wäre also eine Textdatei besser. Vielleicht formatiert. Ich denke, es würde besser funktionieren
Ja, hätte nichts dagegen, eine formatierte Textdatei zu haben. Wäre es dir möglich ein Beispiel zu posten?
Ich habe ein kleines Beispiel hinzugefügt. Aber ich arbeite an etwas anderem, das vielleicht besser funktioniert.
Vielen Dank für den anfänglichen AppleScript-Code. Ein .webarchiv wäre absolut fantastisch.
@JFW, nur um dich auf dem Laufenden zu halten. Damit bin ich fast am Ziel. Nur ein paar Bugs (die ich kenne) zum Ausbügeln und ich kann Sie testen lassen.
Fantastisch. Wirklich, keine Sorge, in Bezug auf die Zeit. Im Moment mache ich das nur manuell, aber es wäre fantastisch, wenn ich es erweitern könnte, so dass ich 8 oder 9 URLs im Skript haben könnte, die ich jeden Tag ausführen (oder anklicken kann, wenn es sich um eine Automator-Anwendung handelt). können automatisch im .webarchive-Format gespeichert werden.