Mein Ziel ist es, mit einer Website (Portfolio123.com) zu interagieren und Ergebnisse von Finanzstudien herunterzuladen.
Um zu den Inhalten zu gelangen, müssen Sie sich anmelden, dann auf Schaltflächen klicken und/oder Formulare ausfüllen. Einige dieser Schaltflächen werden mit „body onload“ geladen. Das resultierende HTML enthält häufig einen Link zu einer herunterladbaren Excel-Datei, die speziell für den angemeldeten Benutzer generiert wird.
Daher sind einige der Anforderungen:
Einige vorläufige Entscheidungen, die ich bisher getroffen habe:
Funktioniert eines davon?
Es ist sehr einfach, wenn Sie dryscrape python verwenden . Auf einem Ubuntu-PC erfolgt die Installation wie folgt:
# apt-get install qt5-default libqt5webkit5-dev build-essential \
python-lxml python-pip xvfb
Verwendung wie folgt:
Import dryscrape as d
Import time #for refreshing or waiting for page
d.start_xvfb() #for using this in linux without Xserver
br = d.Session() #creating new session
br.visit('<Any Url>') #for open the page
Input = br.at_xpath('//*[@name="email"]') #for find input
Input.set('<input value>')
Input.form().submit() #for submit
time.sleep(5) #wait for page load
Auf Android funktioniert das problemlos.
Selenium kann alles, was Benutzer in einem Browser tun können, auf browserübergreifende Weise. Es ist der W3C-Standard für die Browserautomatisierung, und das Erlernen von Selenium ist eine gute Fähigkeit für Ihre Karriere (über dieses Web-Scraping-Projekt hinaus).
Es wird häufig für die Testautomatisierung von webbasierten Anwendungen verwendet.
ChaimG
Izzy
Mawg sagt, Monica wieder einzusetzen
ChaimG