Leute, gibt es eine Software oder Bibliothek, mit der ich den Inhalt der gesamten Website analysieren und dann Analysen durchführen kann, z. B. welches das am häufigsten verwendete Wort auf der Website ist? Der aktivste Benutzer? usw. usw.
Ich möchte die gesamte Site parsen, also sagen wir, wenn es sich um ein Forum handelt, möchte ich Zugriff auf ALLE Daten auf der Site erhalten. Alle Beiträge gemacht.
Sie benötigen mehrere Tools, um Ihr Ziel zu erreichen.
Zuerst müssen Sie die Webseite abrufen und parsen, um den aussagekräftigen Inhalt zu extrahieren, der aus der Spreu des HTML-Markups entfernt wurde.
Für Java schlage ich die jsoup- Bibliothek vor. Das Wort "Suppe" ist ein netter Hinweis auf ein falsches HTML-Markup, das "Tag-Suppe" ist . Diese Bibliothek hat für mich in einigen Projekten gut funktioniert und wird in wichtiger Software wie Vaadin verwendet .
Die jsoup-Bibliothek übernimmt sowohl das Abrufen einer Seite als auch das Analysieren des Inhalts dieser Seite. Dieser Vorgang wird übrigens allgemein als "Web Scraping" oder "Screen Scraping" bezeichnet.
Sie können auch aus vielen anderen HTML-Parsern wählen.
Um die Verwendung von Wörtern zu verfolgen, benötigen Sie eine Volltextindizierung.
Ein führendes Produkt hierfür ist das Apache Lucene -Projekt. Gebaut in Java, aber auch in mehrere andere Sprachen portiert.
Um Wikipedia zu zitieren:
Obwohl Lucene für jede Anwendung geeignet ist, die eine Volltextindizierung und Suchfunktion erfordert, ist es weithin für seine Nützlichkeit bei der Implementierung von Internet-Suchmaschinen und der lokalen Einzelseitensuche anerkannt.
Lucene enthält eine Funktion zur Durchführung einer Fuzzy-Suche basierend auf der Bearbeitungsentfernung.
Ein anderer Ansatz ist die Verwendung einer leistungsstarken Datenbank wie Postgres, die zur Volltextindizierung und -suche fähig ist.
Um aktive Benutzer zu ermitteln, müssten Sie die Protokolle des Webservers analysieren.
Auf der Wikipedia-Seite finden Sie Software zur Analyse von Webprotokollen .
Basil Bourque