Ich möchte eine Offline-App erstellen, um Informationen zu Medikamenten anzuzeigen. Die Informationen, die ich verwenden muss, sind bereits in Wikipedia verfügbar . Aber auf dieser Seite gibt es so viele Unterseiten (1000+), die gespeichert werden müssen, und meiner Meinung nach ist es nicht machbar, diese Aufgabe manuell zu erledigen.
Beachten Sie auch, dass ich jedes Medikament in einem formatierten Element in XML speichern sollte (mit einem bestimmten Schema). Jetzt suche ich nach einem Werkzeug, um diese Aufgabe zu erleichtern. Gibt es ein solches Tool überhaupt oder nicht?
Meine Anforderungen
Ich bezweifle, dass Sie für diesen Zweck ein handelsübliches Tool finden werden, dies ist meiner Meinung nach eine zu spezifische Anforderung. Aber es gibt viele Frameworks für jede wichtige Programmiersprache, die Ihnen helfen, selbst einen Web-"Scraper" oder "Crawler" zu implementieren.
Wenn Sie zum Beispiel nach „python web crawler“ googeln, wird sofort http://scrapy.org/ angezeigt , wenn Sie nach „java web crawler“ suchen, erhalten Sie einen Link zu crawler4j . Mit einem solchen Framework sollte es für jemanden mit >4.000 Punkten bei Stackoverflow höchstens eine Frage von ein paar Tagen sein, um das zu implementieren, wonach Sie suchen.
Kein allgemeines Tool für diesen Job, aber eine Lösung, die Wikipedia-Artikel in XML-Dokumente konvertiert:
(Durch Eingabe eines Kategorienamens in das Feld „Seiten aus Kategorie hinzufügen“ können Sie automatisch alle Seiten exportieren, die zu dieser Kategorie gehören.)
Auf http://www.mediawiki.org/wiki/Manual:Parameters_to_Special:Export können Sie weitere Funktionen der Exportfunktion nachlesen, die durch Manipulation der URL gesteuert werden können.
Der eigentliche Artikelinhalt (im XML-Element enthalten text
) wird in MediaWiki-Syntax exportiert. Auf http://www.mediawiki.org/wiki/Alternative_parsers finden Sie verschiedene Tools, die dieses Markup in etwas anderes umwandeln, zB XML.
Beispielsweise kann Pandoc die MediaWiki-Syntax importieren und nach XHTML (das ist XML) exportieren.
unoder
Frosch