Ich habe eine CSV-Datei mit mehr als 5 Milliarden Einträgen darin. Ich möchte ein Linien- oder Flächendiagramm für diese Daten erstellen (Datenzeilennummer als x, Wert als y). Welche Software kann ich dafür verwenden?
Die Datei hat nur eine Spalte und alle Werte sind Gleitkommawerte mit 3 Dezimalstellen. Die Dateigröße beträgt 34 GB.
Probe:
23287.323
50982.287
71124.691
[...]
Der schnellste Weg, diesen Graphen zu erzeugen, ist wahrscheinlich mit gnuplot .
Nehmen wir an, Ihre Daten befinden sich in einer Datei namens data.csv
. Fügen Sie dann das folgende Skript in eine Datei namens ein graph.gnuplot
:
set yrange [0:100000]
set grid
set term png
set output 'graph.png'
plot \
0.01 with lines lt 1, \
'data.csv' u 0:1:2 with line lt -1 lw 1
Führen Sie dann diesen Befehl aus:
gnuplot graph.gnuplot
Und das Diagramm wird als generiert graph.png
. Sie müssen wahrscheinlich yrange
(und möglicherweise andere Variablen) anpassen, also versuchen Sie es zuerst mit nur wenigen Werten.
Pandas
DataFrame
Möglicherweise ist es besser , die Datei in Pythons Objekt einzulesen, als nur gnuplot zu verwenden:
http://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html#pandas.read_csv
Der Vorteil besteht darin, dass Sie Daten mithilfe von Pandas
Einrichtungen weiter schneiden, würfeln und anzeigen können. QtConsole
ist eine sehr nützliche interaktive Shell für diese Art von Arbeit.
Rückgängig machen
ᔕᖺᘎᕊ
Hemen Ashodia
Benutzer416