So erstellen Sie ein Diagramm für einen großen Datensatz mit 5 Milliarden Datensätzen

Ich habe eine CSV-Datei mit mehr als 5 Milliarden Einträgen darin. Ich möchte ein Linien- oder Flächendiagramm für diese Daten erstellen (Datenzeilennummer als x, Wert als y). Welche Software kann ich dafür verwenden?

Die Datei hat nur eine Spalte und alle Werte sind Gleitkommawerte mit 3 Dezimalstellen. Die Dateigröße beträgt 34 ​​GB.

Probe:

23287.323
50982.287
71124.691
[...]
Wir benötigen viel mehr Informationen, um eine solide Empfehlung abgeben zu können. Bitte nehmen Sie sich etwas Zeit, um unsere Qualitätsrichtlinien für Fragen durchzulesen und Ihre Frage entsprechend zu bearbeiten . Welche Anforderungen haben Sie? Was wäre nice to have, aber kein Muss? Auf welchem ​​Betriebssystem soll es laufen? Nachdem Sie Ihre Frage so bearbeitet haben, dass sie weitere Informationen enthält, können wir sie erneut öffnen. Vielen Dank!
Nochmals, wie @Undo sagte: Welches Betriebssystem? Preis? Haben Sie ein Budget? Gibt es zusätzliche Anforderungen?
Ich verwende MAC OS X 10.11
Sie wollen also nur ein (beliebiges) Programm, das das auf Ihrem Mac macht? Was möchten Sie danach mit dem Diagramm machen?

Antworten (2)

Der schnellste Weg, diesen Graphen zu erzeugen, ist wahrscheinlich mit gnuplot .

Nehmen wir an, Ihre Daten befinden sich in einer Datei namens data.csv. Fügen Sie dann das folgende Skript in eine Datei namens ein graph.gnuplot:

set yrange [0:100000]
set grid
set term png
set output 'graph.png'
plot \
  0.01 with lines lt 1, \
  'data.csv' u 0:1:2 with line lt -1 lw 1

Führen Sie dann diesen Befehl aus:

gnuplot graph.gnuplot

Und das Diagramm wird als generiert graph.png. Sie müssen wahrscheinlich yrange(und möglicherweise andere Variablen) anpassen, also versuchen Sie es zuerst mit nur wenigen Werten.

Pandas DataFrameMöglicherweise ist es besser , die Datei in Pythons Objekt einzulesen, als nur gnuplot zu verwenden:

http://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html#pandas.read_csv

Der Vorteil besteht darin, dass Sie Daten mithilfe von PandasEinrichtungen weiter schneiden, würfeln und anzeigen können. QtConsoleist eine sehr nützliche interaktive Shell für diese Art von Arbeit.