Wie viele GAIA Data Release 2-Dateien gibt es?

Ich verwende diese Indexseite, um DDR2-Datendateien herunterzuladen.

http://cdn.gea.esac.esa.int/Gaia/gdr2/gaia_source/csv/

Aber es gibt immer eine andere Anzahl von Links. Manchmal werden 16.000 Dateien angezeigt, manchmal 31.000 und das Maximum, das ich gesehen habe, ist 61.237. Was ist die richtige Nummer, die ich herunterladen sollte? Die GAIA GDR2-Dokumentation listet nicht die Gesamtzahl der verfügbaren Dateien auf.

Wenn der Index weniger als 60.000 Dateien auflistet, enthält er interessanterweise immer noch das schließende /html-Tag, sodass es so aussieht, als hätte ich eine vollständige Indexdatei, aber der Inhalt ist nicht vollständig.

Mit curlhabe ich insgesamt 61240 Zeilen erhalten, aber das enthält einige Header, also denke ich, dass 61237 richtig ist und Ihr Browser möglicherweise nur eine Zeitüberschreitung hat. Insbesondere die letzte Datei auf meiner Liste ist "GaiaSource_999922404314639104_1000172126596665472.csv.gz", was korrekt erscheint, da die erste Zahl mit jeder Datei zunimmt und sich schließlich mit der letzten Datei "umschließt".
Danke, ich habe weitere Tests durchgeführt und 61237 scheint die richtige Nummer zu sein. Fügen Sie dies als Antwort hinzu und ich werde es akzeptieren.
Vielen Dank. Ich bin nicht wirklich in die Punktesache, aber Sie können es gerne als Ihre Antwort posten.

Antworten (2)

Das Verzeichnis enthält 61.234 Datendateien. Es gibt drei zusätzliche (keine Daten-)Dateien:

MD5SUM.txt     
_citation.txt  
_disclaimer.txt

Wenn Sie diese einbeziehen, beträgt die Gesamtzahl 61.237.

Beweise: curl -s 'http://cdn.gea.esac.esa.int/Gaia/gdr2/gaia_source/csv/MD5SUM.txt' | grep 'GaiaSource_' | wc -lfür das Terminal oder [...document.querySelectorAll("a")].filter((el) => /GaiaSource/.test(el.href)).lengthfür die Browserkonsole (F12) in einem modernen Browser.

barrycarter lieferte die Antwort:

Mit curl habe ich insgesamt 61240 Zeilen erhalten, aber das enthält einige Header, also denke ich, dass 61237 richtig ist und Ihr Browser möglicherweise nur eine Zeitüberschreitung hat. Insbesondere die letzte Datei auf meiner Liste ist "GaiaSource_999922404314639104_1000172126596665472.csv.gz", was korrekt erscheint, da die erste Zahl mit jeder Datei zunimmt und sich schließlich mit der letzten Datei "umschließt". – Barrycarter 29. April um 3:54