Tool zum Extrahieren von Text aus HTML

Question

Thomas Weller

Ich habe eine Website und möchte Inhalte daraus extrahieren. Bisher habe ich Regex in Notepad ++ verwendet, aber

Wir alle wissen , dass wir Regex nicht zum Analysieren von HTML verwenden sollten
Aufgrund einer Neugestaltung der Website ist es fast unmöglich, die Regex richtig hinzubekommen

Ich habe über die möglichen Antworten 1 , 2 , 3 und 4 gelesen, aber sie laufen alle auf Python+Scrapy oder JSoup hinaus.

Ich suche ein Tool für Nicht-Programmierer welches
ermöglicht dem Benutzer, Elemente visuell auszuwählen (nicht unbedingt in gerendertem HTML, könnte auch in HTML-Quelle sein)
erstellt eine Liste von "XPaths" (oder ähnlich, XML-XPath-Verständnis ist verfügbar)
kann später die Extraktion ohne GUI in einem geplanten Job erneut ausführen

Andere Vorraussetzungen

Igor Savinkin · Answer 1

Tool für Nicht-Programmierer

erstellt eine Liste von "XPaths"

Fast widersprüchliche Anforderungen, aber dennoch einige prominente Scraping-Software sind in beiden gut. Siehe die Liste von ihnen:

Content Grabber - Führen Sie ein Projekt als eigenständigen Scraping-Agent erneut aus.
CloudScrape – über API erneut ausführen
Helium Scraper - Zeitplan über den Windows-Taskplaner
Screen Scraper - Zeitplan über den Windows-Taskplaner
Web Content Extractor - Planen Sie über den Windows-Taskplaner

Willkommen bei Softwareempfehlungen. Eine der Regeln hier ist, dass Sie Erfahrung mit den von Ihnen vorgeschlagenen Tools haben sollten. Eine weitere Regel ist, dass Sie erwähnen sollten, wie die Software die Anforderungen erfüllt. Bieten alle eine XPath-ähnliche Sprache und ein Befehlszeilentool zum erneuten Ausführen des Extrakts?
Antwortlisten ohne detaillierte Produktbeschreibung sind generell verpönt. Vielleicht möchten Sie nachlesen, was erforderlich ist, damit eine Antwort von hoher Qualität ist?
CloudScrape ist ein Webdienst, keine Anwendung. „Alles in der Wolke“