Software zum Archivieren gewünschter Websites wie Wayback Machine von Internet Archive?

Ich bin Teil eines Teams von 5 aktiven Zivilisten, die Forschungsforschung zu öffentlicher Politik betreiben. Wir untersuchen hauptsächlich die Politik der Regierung, ermitteln Fakten in ihren Behauptungen, bewerten die Machbarkeit usw. Wir verlassen uns bei unseren Recherchen zur öffentlichen Ordnung hauptsächlich auf unsere Regierungswebsites.

Das Problem ist, dass ihre Policendokumente, Informationen und Daten zu Policen, Pressemitteilungen, Bestellungen usw. so schnell wie möglich verschwinden. Sie nehmen solche Informationen absichtlich auf, um sich vor der Überprüfung durch die Zivilgesellschaft zu schützen.

Da wir ein kleines Team sind, konzentrieren wir uns jeweils auf eine Richtlinie, und wenn wir zu einer anderen Richtlinie gelangen, verschwinden relevante Dokumente/Websites vollständig und manchmal müssen wir auf etwas verweisen, das einige Monate oder sogar einige Jahre auf ihrer Website vorhanden war der Rücken.

Websites lokal zu archivieren ist die bestmögliche Lösung. So etwas wie eine Wayback-Maschine ist für unseren Zweck ideal. Gibt es eine Open-Source-Alternative zu ihrer Wayback-Maschine?

Anforderungen:

  • Ermöglicht mir, eine Liste der gewünschten zu archivierenden Websites zu konfigurieren
  • Überprüft regelmäßig Websites und archiviert sie nur, wenn es einige Änderungen auf der Website gibt
  • Lässt mich so durch die Archive stöbern

Ich bin ein ehemaliger anständiger Programmierer, ich kann bei Bedarf einige kleine Skripte schreiben (die Sprache spielt keine Rolle).

Antworten (2)

Die Wayback-Maschine ist Open Source:

https://github.com/internetarchive/wayback

Es ist in Java implementiert und verwendet Hadoop. Es sieht so aus, als ob sowohl der Web-Crawler als auch das Web-Frontend (genau das, das Sie in Ihrer Frage zitieren) vorhanden sind.

Die Wayback-Maschine ist jedoch eine Website, kein Projekt, das von vielen Menschen wiederverwendet und sorgfältig verfeinert wurde, um ein Open-Source-„Produkt“ zu sein, das jeder ohne großen Aufwand einfach aufgreifen und verwenden kann. Es oder ein anderes ähnliches Tool so anzupassen, dass es genau das tut, was Sie brauchen, kann sich als mehr Arbeit erweisen, als nur ein paar Skripte zu schreiben. Allerdings können Sie mit relativ wenig Aufwand etwas Wertvolles auf die Beine stellen, auch wenn es nicht wirklich an Ihre Bedürfnisse angepasst ist.

Ich kann mir vorstellen, dass die Leute vom Internetarchiv Ihren Zielen gegenüber positiv eingestellt sein werden, also können sie Sie vielleicht in die richtige Richtung weisen? Insbesondere der/die Betreuer des Wayback-Machine-Projekts könnten für wohlüberlegte Fragen zur Implementierung von Modifikationen offen sein.

Ich würde python + scrapy vorschlagen , um die Websites regelmäßig zu scrapen – möglicherweise benötigen Sie für einige Seiten auch die Anforderungsbibliothek – und die Ergebnisse in einer Verzeichnisstruktur zu speichern, die mit Mercurial oder möglicherweise mit MongoDB versioniert ist .

  • Python ist kostenlos, Open Source und lässt sich schnell entwickeln.
  • Scrapy ist sehr gut darin, statische Seiten zu schaben (Anfragen können für dynamisch erstellte Seiten erforderlich sein) und ist recht einfach zu verwenden. Scrapy ist kostenlos und Open Source.
  • Mit Mercurial können Sie Seiten/Sites schnell und einfach auf einen beliebigen Punkt in der Vergangenheit zurücksetzen - es ist auch sehr gut darin, Dateien, die sich nicht vom letzten Mal unterscheiden, nicht als geändert zu markieren. Mercurial ist in Python, Free und Open Source geschrieben.
  • MongoDB könnte auch einen kompakten Speicher für die Webdaten bieten – ein schönes Beispiel ist hier . MongoDB ist eine Open-Source-Dokumentendatenbank, die auf einfache Entwicklung und Skalierung ausgelegt ist.

Alle oben genannten Tools sind nicht nur kostenlos, kostenlos und Open Source, sondern auch plattformübergreifend.