Tool zum Extrahieren von Text aus HTML

Ich habe eine Website und möchte Inhalte daraus extrahieren. Bisher habe ich Regex in Notepad ++ verwendet, aber

  1. Wir alle wissen , dass wir Regex nicht zum Analysieren von HTML verwenden sollten
  2. Aufgrund einer Neugestaltung der Website ist es fast unmöglich, die Regex richtig hinzubekommen

Ich habe über die möglichen Antworten 1 , 2 , 3 und 4 gelesen, aber sie laufen alle auf Python+Scrapy oder JSoup hinaus.

  1. Ich suche ein Tool für Nicht-Programmierer welches
  2. ermöglicht dem Benutzer, Elemente visuell auszuwählen (nicht unbedingt in gerendertem HTML, könnte auch in HTML-Quelle sein)
  3. erstellt eine Liste von "XPaths" (oder ähnlich, XML-XPath-Verständnis ist verfügbar)
  4. kann später die Extraktion ohne GUI in einem geplanten Job erneut ausführen

Andere Vorraussetzungen

  1. Windows oder Ubuntu
  2. Kommerzielle Lösung ist ok

Antworten (1)

Tool für Nicht-Programmierer

erstellt eine Liste von "XPaths"

Fast widersprüchliche Anforderungen, aber dennoch einige prominente Scraping-Software sind in beiden gut. Siehe die Liste von ihnen:

Ihre Kurzbeschreibungen .

Willkommen bei Softwareempfehlungen. Eine der Regeln hier ist, dass Sie Erfahrung mit den von Ihnen vorgeschlagenen Tools haben sollten. Eine weitere Regel ist, dass Sie erwähnen sollten, wie die Software die Anforderungen erfüllt. Bieten alle eine XPath-ähnliche Sprache und ein Befehlszeilentool zum erneuten Ausführen des Extrakts?
Antwortlisten ohne detaillierte Produktbeschreibung sind generell verpönt. Vielleicht möchten Sie nachlesen, was erforderlich ist, damit eine Antwort von hoher Qualität ist?
@Thomas, ich habe gemäß deinem Kommentar aktualisiert.
CloudScrape ist ein Webdienst, keine Anwendung. „Alles in der Wolke“
@Thomas, stimmt; aber es erfüllt alle anderen Kriterien...