Ich habe eine CSV-Datei mit 3,5 GB Daten (ca. 8 Millionen Zeilen und 86 Spalten) und ich muss ein Regressionsmodell für dieses Dataset erstellen.
Die Sache ist, dass der Versuch, die CSV-Datei mit Pandas zu lesen, und anschließend jede Art von Operation darauf auszuführen (selbst nur die Anzahl der Zeilen zu nehmen), eine lächerliche Zeit in Anspruch nimmt. Wenn man bedenkt, dass ich die Daten visualisieren muss, um zu wissen, wie sie aussehen, sie dann vorverarbeiten usw. usw., glaube ich nicht wirklich, dass es machbar ist, dies so zu tun, wie ich es immer für Dateien mit 50-100 MB getan habe. isch.
Ich habe versucht, in das Multiprocessing -Modul von Python zu schauen , aber obwohl es mir geholfen hat, die Anzahl der Zeilen zu berechnen, sehe ich nicht, dass es mir bei den meisten anderen Dingen hilft, die ich tun muss (wie zum Beispiel das Erstellen des Modells).
Also, weiß jemand, wie ich das angehen soll? Ich mache es auf einem Python-Notebook.
Werfen Sie einen Blick in die Dask-Bibliothek. ( http://dask.pydata.org/en/latest/ ). Es erweitert die DataFrames und Numpy-Arrays von Pandas für Berechnungen, die größer als der Speicher sind.
Hier ist ein Blogbeitrag über die Verwendung von Dask mit scikit-learn: https://www.continuum.io/blog/developer-blog/dask-and-scikit-learn-3-part-tutorial
Mehrere Vorschläge:
Llopis
Mawg sagt, Monica wieder einzusetzen