In regelmäßigen Abständen muss ich meine Websites auf "Link-Rot" überprüfen. Der Plural deutet bereits an, dass dies eine Arbeit ist, die nicht manuell erledigt werden kann (zu vielen Websites und noch mehr Links zum Überprüfen), also möchte ich ein Tool, das mir hilft.
Must-Haves:
Stark bevorzugt:
Schön zu haben:
Ich habe bereits versucht:
1: Wenn zB auf der gescannten Seite die Seiten A, B und C auf Z verlinken (immer noch auf dem gescannten Server selbst, also keine externen Links), sollte Z nur einmal gescannt werden, nicht 3 mal, wie ich es zB mit erlebt habe LinkChecker
2: Wenn die Seite zB dieselben Inhalte in mehreren Sprachen anbietet, macht es keinen Sinn, alle Sprachvarianten zu scannen (sofern die Links darauf identisch sind). So möchte ich zB den lang=XX
Parameter ignorieren und den Link-Checker a.php
, a.php?lang=en
, und a.php?lang=de
dieselbe Seite berücksichtigen lassen. Dies könnte natürlich durch den Must-Have-Filter mit RegEx abgedeckt werden, vorausgesetzt, der lang
Parameter ist optional ;)
3: Klar wird mit Cron STDERR
gecaptured, also liegt der Focus dieser Mail auf "formatted". Das können zB ODF -Rechenblätter sein (die dann mit OpenOffice/LibreOffice "gefiltert" werden können).
4: dh die Sites, die den Zugriff auf Benutzername/Passwort anfordern (HTTP-Antwortcode 401); Ich habe gerade bemerkt , dass LinkChecker hinzugefügt hat, dass gUrlChecker mit v7.9 das auch kann. Dies bezieht sich hauptsächlich auf die zu scannende Seite , nicht unbedingt auf externe Links (wenn beides unterstützt wird, sollte es separat konfigurierbar sein)
5: Wenn der Link-Checker z. B. in der Lage ist, Inhalte von PDF-, MSWord- oder anderen Dokumenten zu scannen, sollte es möglich sein, dies auszuschalten: Eine Website enthält möglicherweise "ältere Dokumentversionen" als Referenz, wobei "veraltete Links" als "normal" gelten ". Der Ausschluss könnte nach Mime-Type oder Dateierweiterung erfolgen.
Da es keine Empfehlungen gab, bin ich bei LinkChecker gelandet . Während die meisten Nachteile, die ich mit meiner Frage aufgelistet habe, bestehen blieben, war die Verwendung der neuesten Version von der Website des Autors besser als die Ausführung der Version, die im Repo enthalten ist.
LinkChecker GUI und CLI (Quelle: LinkChecker ; Bilder anklicken für größere Varianten)
Kann Sites mit Authentifizierungsanforderung scannen: Nicht gründlich getestet, aber dies scheint möglich zu sein – in der linkcheckerrc
Datei zu konfigurieren:
[authentication]
# Different user/password pairs for different URLs can be provided.
[…]
Möglichkeit, Dateitypen vom Scannen auszuschließen: Ich musste mich damit nicht befassen, da LinkChecker anscheinend kein PDF oder anderes Dateiformat gefunden hat, das es scannen könnte.
Obwohl LinkChecker nicht genau das ist, wonach ich suche, kommt es ziemlich nahe – höchstwahrscheinlich so nah wie möglich. Wenn Sie auf etwas gestoßen sind, das meinen Anforderungen besser entspricht, freue ich mich auf Alternativen :)
Nivatius
Izzy