Software zum Analysieren von Website-Inhalten und zum Durchführen von Analysen

Leute, gibt es eine Software oder Bibliothek, mit der ich den Inhalt der gesamten Website analysieren und dann Analysen durchführen kann, z. B. welches das am häufigsten verwendete Wort auf der Website ist? Der aktivste Benutzer? usw. usw.

Ich möchte die gesamte Site parsen, also sagen wir, wenn es sich um ein Forum handelt, möchte ich Zugriff auf ALLE Daten auf der Site erhalten. Alle Beiträge gemacht.

Haben Sie die Kontrolle über oder Zugriff auf den Webserver? Oder fragen Sie nach der Analyse einer Website von außen?

Antworten (1)

Sie benötigen mehrere Tools, um Ihr Ziel zu erreichen.

Screen-Scraping

Zuerst müssen Sie die Webseite abrufen und parsen, um den aussagekräftigen Inhalt zu extrahieren, der aus der Spreu des HTML-Markups entfernt wurde.

jsoup-Projekt

Für Java schlage ich die jsoup- Bibliothek vor. Das Wort "Suppe" ist ein netter Hinweis auf ein falsches HTML-Markup, das "Tag-Suppe" ist . Diese Bibliothek hat für mich in einigen Projekten gut funktioniert und wird in wichtiger Software wie Vaadin verwendet .

Die jsoup-Bibliothek übernimmt sowohl das Abrufen einer Seite als auch das Analysieren des Inhalts dieser Seite. Dieser Vorgang wird übrigens allgemein als "Web Scraping" oder "Screen Scraping" bezeichnet.

Sie können auch aus vielen anderen HTML-Parsern wählen.

Volltextindizierung

Um die Verwendung von Wörtern zu verfolgen, benötigen Sie eine Volltextindizierung.

Logo des Apache Lucene-Projekts

Ein führendes Produkt hierfür ist das Apache Lucene -Projekt. Gebaut in Java, aber auch in mehrere andere Sprachen portiert.

Um Wikipedia zu zitieren:

Obwohl Lucene für jede Anwendung geeignet ist, die eine Volltextindizierung und Suchfunktion erfordert, ist es weithin für seine Nützlichkeit bei der Implementierung von Internet-Suchmaschinen und der lokalen Einzelseitensuche anerkannt.

Lucene enthält eine Funktion zur Durchführung einer Fuzzy-Suche basierend auf der Bearbeitungsentfernung.

Logo des PostgreSQL-Datenbankverwaltungssystems

Ein anderer Ansatz ist die Verwendung einer leistungsstarken Datenbank wie Postgres, die zur Volltextindizierung und -suche fähig ist.

Log-Parsing

Um aktive Benutzer zu ermitteln, müssten Sie die Protokolle des Webservers analysieren.

Auf der Wikipedia-Seite finden Sie Software zur Analyse von Webprotokollen .