Software zum Analysieren von Website-Inhalten und zum Durchführen von Analysen

Question

Software zum Analysieren von Website-Inhalten und zum Durchführen von Analysen

Parser
Software
Web-Apps
Datenanalyse

giorgi

Leute, gibt es eine Software oder Bibliothek, mit der ich den Inhalt der gesamten Website analysieren und dann Analysen durchführen kann, z. B. welches das am häufigsten verwendete Wort auf der Website ist? Der aktivste Benutzer? usw. usw.

Ich möchte die gesamte Site parsen, also sagen wir, wenn es sich um ein Forum handelt, möchte ich Zugriff auf ALLE Daten auf der Site erhalten. Alle Beiträge gemacht.

Basil Bourque

Haben Sie die Kontrolle über oder Zugriff auf den Webserver? Oder fragen Sie nach der Analyse einer Website von außen?

Antworten (1)

Software zum Analysieren von Website-Inhalten und zum Durchführen von Analysen

Haben Sie die Kontrolle über oder Zugriff auf den Webserver? Oder fragen Sie nach der Analyse einer Website von außen?

Basil Bourque · Answer 1

Sie benötigen mehrere Tools, um Ihr Ziel zu erreichen.

Screen-Scraping

Zuerst müssen Sie die Webseite abrufen und parsen, um den aussagekräftigen Inhalt zu extrahieren, der aus der Spreu des HTML-Markups entfernt wurde.

jsoup-Projekt

Für Java schlage ich die jsoup- Bibliothek vor. Das Wort "Suppe" ist ein netter Hinweis auf ein falsches HTML-Markup, das "Tag-Suppe" ist . Diese Bibliothek hat für mich in einigen Projekten gut funktioniert und wird in wichtiger Software wie Vaadin verwendet .

Die jsoup-Bibliothek übernimmt sowohl das Abrufen einer Seite als auch das Analysieren des Inhalts dieser Seite. Dieser Vorgang wird übrigens allgemein als "Web Scraping" oder "Screen Scraping" bezeichnet.

Sie können auch aus vielen anderen HTML-Parsern wählen.

Volltextindizierung

Um die Verwendung von Wörtern zu verfolgen, benötigen Sie eine Volltextindizierung.

Logo des Apache Lucene-Projekts

Ein führendes Produkt hierfür ist das Apache Lucene -Projekt. Gebaut in Java, aber auch in mehrere andere Sprachen portiert.

Um Wikipedia zu zitieren:

Obwohl Lucene für jede Anwendung geeignet ist, die eine Volltextindizierung und Suchfunktion erfordert, ist es weithin für seine Nützlichkeit bei der Implementierung von Internet-Suchmaschinen und der lokalen Einzelseitensuche anerkannt.

Lucene enthält eine Funktion zur Durchführung einer Fuzzy-Suche basierend auf der Bearbeitungsentfernung.

Logo des PostgreSQL-Datenbankverwaltungssystems

Ein anderer Ansatz ist die Verwendung einer leistungsstarken Datenbank wie Postgres, die zur Volltextindizierung und -suche fähig ist.

Log-Parsing

Um aktive Benutzer zu ermitteln, müssten Sie die Protokolle des Webservers analysieren.

Auf der Wikipedia-Seite finden Sie Software zur Analyse von Webprotokollen .

Software zum Analysieren von Website-Inhalten und zum Durchführen von Analysen

giorgi

Basil Bourque

Antworten (1)

Basil Bourque

Screen-Scraping

jsoup-Projekt

Volltextindizierung

Log-Parsing

Geben Sie eindeutige Berichte/Listen/Tabellen basierend auf vom Benutzer eingegebenen Kriterien zurück, die durch eine Reihe von Entscheidungsbäumen geschoben werden

HR-Performance-Management-System

Intuitives Tool zum Filtern mehrerer CSV-Dateien oder mehrerer Spalten in einer CSV-Datei mit komplexen IF-Anforderungen

Linux-Alternative zur Excel-Pivot-Tabelle

Sicherer Online-IM-Chat - einmaliger Chatter

Web-App zur Verteilung von Software-Updates an Kunden (Kundensupport)

CMS für Business-Websites

Webbasiertes Single-Sign-On

Dateibibliotheken öffnen/lesen

Web-App, um zu zählen, wie viele Chrome-Tabs ich geöffnet habe