Ich bin Teil eines Teams von 5 aktiven Zivilisten, die Forschungsforschung zu öffentlicher Politik betreiben. Wir untersuchen hauptsächlich die Politik der Regierung, ermitteln Fakten in ihren Behauptungen, bewerten die Machbarkeit usw. Wir verlassen uns bei unseren Recherchen zur öffentlichen Ordnung hauptsächlich auf unsere Regierungswebsites.
Das Problem ist, dass ihre Policendokumente, Informationen und Daten zu Policen, Pressemitteilungen, Bestellungen usw. so schnell wie möglich verschwinden. Sie nehmen solche Informationen absichtlich auf, um sich vor der Überprüfung durch die Zivilgesellschaft zu schützen.
Da wir ein kleines Team sind, konzentrieren wir uns jeweils auf eine Richtlinie, und wenn wir zu einer anderen Richtlinie gelangen, verschwinden relevante Dokumente/Websites vollständig und manchmal müssen wir auf etwas verweisen, das einige Monate oder sogar einige Jahre auf ihrer Website vorhanden war der Rücken.
Websites lokal zu archivieren ist die bestmögliche Lösung. So etwas wie eine Wayback-Maschine ist für unseren Zweck ideal. Gibt es eine Open-Source-Alternative zu ihrer Wayback-Maschine?
Anforderungen:
Ich bin ein ehemaliger anständiger Programmierer, ich kann bei Bedarf einige kleine Skripte schreiben (die Sprache spielt keine Rolle).
Die Wayback-Maschine ist Open Source:
https://github.com/internetarchive/wayback
Es ist in Java implementiert und verwendet Hadoop. Es sieht so aus, als ob sowohl der Web-Crawler als auch das Web-Frontend (genau das, das Sie in Ihrer Frage zitieren) vorhanden sind.
Die Wayback-Maschine ist jedoch eine Website, kein Projekt, das von vielen Menschen wiederverwendet und sorgfältig verfeinert wurde, um ein Open-Source-„Produkt“ zu sein, das jeder ohne großen Aufwand einfach aufgreifen und verwenden kann. Es oder ein anderes ähnliches Tool so anzupassen, dass es genau das tut, was Sie brauchen, kann sich als mehr Arbeit erweisen, als nur ein paar Skripte zu schreiben. Allerdings können Sie mit relativ wenig Aufwand etwas Wertvolles auf die Beine stellen, auch wenn es nicht wirklich an Ihre Bedürfnisse angepasst ist.
Ich kann mir vorstellen, dass die Leute vom Internetarchiv Ihren Zielen gegenüber positiv eingestellt sein werden, also können sie Sie vielleicht in die richtige Richtung weisen? Insbesondere der/die Betreuer des Wayback-Machine-Projekts könnten für wohlüberlegte Fragen zur Implementierung von Modifikationen offen sein.
Ich würde python + scrapy vorschlagen , um die Websites regelmäßig zu scrapen – möglicherweise benötigen Sie für einige Seiten auch die Anforderungsbibliothek – und die Ergebnisse in einer Verzeichnisstruktur zu speichern, die mit Mercurial oder möglicherweise mit MongoDB versioniert ist .
Alle oben genannten Tools sind nicht nur kostenlos, kostenlos und Open Source, sondern auch plattformübergreifend.