Ich versuche, Informationen über SNP-Daten vom FTP-Server von NCBI zu extrahieren. Kann mir bitte jemand erklären, wie das Verzeichnis aufgebaut ist? Es gibt viele, viele Dateien und Ordner und ich kann nicht herausfinden, welche was enthält. Gibt es eine Datei, die die Organisation der FTP-Site richtig erklärt? Das NCBI-Hilfshandbuch hat mir nicht viel geholfen, außer mir zu helfen, interessante Arten zu finden.
Es ist eigentlich einfach, die Daten vom NCBI herunterzuladen, wenn Sie der in FAQ angegebenen Methode folgen (wie von @WYSIWYG angegeben).
Schritt 1:
Gehen Sie zum FTP-Organismus: ftp://ftp.ncbi.nlm.nih.gov/snp/organisms/
Schritt 2
Öffnen Sie Ihren gewünschten Organismenordner:
Von hier aus können Sie jede gewünschte Datei herunterladen. Wenn Sie versuchen, den gesamten Organismus zu studieren, laden Sie bitte einen der gesamten Ordner herunter (ASN.1, rs_fasta, XML (empfohlen)).
Jetzt,
Es geht nicht um das Herunterladen, sondern um das Verständnis der bereitgestellten Dateien.
Dateitypen:
Alle enthalten fast die gleichen Daten, nur in unterschiedlichem Format. Es liegt an Ihnen, wie Ihr Skript (vorzugsweise Python oder Perl) funktioniert, um die Importinformationen herauszubekommen.
Andere Möglichkeit zum Herunterladen von NCBI FTP :
Sie können immer filezilla verwenden:
WYSIWYG
Shigeta