Web-Scraping-Tool zum Scrapen einer dynamischen Seite basierend auf dem aktuellen Tag

Ich muss eine Theater-Webseite durchsuchen, um zu wissen, ob die Buchungen für nächste Woche geöffnet wurden. Ich plane, einen Scraper zu schreiben, wenn die Seite das erforderliche HTML-Element für den nächsten Freitag basierend auf dem aktuellen Datum enthält.

Wenn das aktuelle Datum beispielsweise der 4. bis 9. Juni ist, sollte ich die Seite https://www.spicinemas.in/chennai/show-times/10-06-2016?seats=2 schaben

Grundsätzlich ist das Datum in der URL der nächste Freitag, da dies das Veröffentlichungsdatum ist.

Für bestimmte Filme speichere ich gerne den Namen und das Veröffentlichungsdatum in DB, damit es Sonderfälle für sie übernimmt.

Welches Tool wäre optimal und würde am wenigsten Zeit in Anspruch nehmen? Ich muss dies für mehrere Movieplex-Websites schreiben und jede hat einen anderen Mechanismus, um zu überprüfen, ob die Buchung geöffnet wurde.

Ist PhantomJS dafür geeignet? Bitte vorschlagen.

Muss das Tool in Java oder Python geschrieben sein, oder sind auch andere Programmiersprachen geeignet?
Gut, wenn es andere Sprachen gibt. Anders als Java muss ich lernen und implementieren. Ich glaube nicht, dass die Sprache hier das Haupthindernis bei der Umsetzung sein wird.

Antworten (2)

Wenn die Seite reines HTML ist (nicht auf Flash oder Abfragen basiert), sollten Sie in der Lage sein, dies sehr schnell und einfach zu tun, indem Sie die Requests- und Beautiful Soup- Bibliotheken von Python verwenden.

Das Beste daran ist, dass Sie es schnell interaktiv mit Python oder iPython testen können .

Zusätzlich zu Steves Antwort hier können Sie sich die lxml-Bibliothek von Python ansehen, die eine Bare-Bones-Scraping-Bibliothek in Python ist.

Da Bibliotheken wie Scrapy und Beautiful Soup als Wrapper über lxml geschrieben werden, ist es schneller als sie und die meisten Python-basierten Scraper.