Rufen Sie alle vorhergesagten CDs von NCBI ab

Bitte entschuldigen Sie, wenn dies woanders beantwortet wurde, aber ich konnte keine Antwort auf dieses Problem finden.

Ich möchte alle vorhergesagten Kodiersequenzen auf dem NCBI-ftp für eine bestimmte Art abrufen . Nehmen wir an, meine heutige Interessensspezies ist Stegasters partitus und ich gehe hierher . Ich weiß, wie ich alle vorhergesagten mRNAs (./RNA/Gnomon_mRNA.fsa) oder alle vorhergesagten Proteine ​​(./protein/protein.fa) bekomme, aber ich kann nicht finden, wie ich die CDS bekomme ... ob es jemals möglich ist? Dies kann auf dem Ensembl FTP erfolgen .

Danke für jeden Einblick!


EDIT: Die Ausgabe wäre idealerweise eine Multifasta-Datei wie diese:

>Stegastes_partitus_gene1_cds
ATG(.................................)TAA
>Stegastes_partitus_gene2_cds
ATG(.............................)TGA
>Stegastes_partitus_gene3_cds
...
Eine QA-Site, die sich auf detaillierte Fragen zur Bioinformatik spezialisiert hat, ist biostars.org
Ich lehne ab, weil die Readme-Datei Ihnen bereits sagt, dass der GNOMON-Ordner die gewünschten Dateien enthalten sollte.
Der GNOMON- und der GFF-Ordner. Was das Text-Mining betrifft, können Sie Excel und awk verwenden ... awk ist eher eine Stackoverflow-Frage ... aber ich glaube nicht, dass Sie Linux verwenden.
@Koustav Pal Du stimmst also ab, weil du die Antwort kennst? Sie könnten zumindest eine richtige Antwort geben;) Trotzdem danke! PS: Ich bin auf Linux, was nicht bedeutet, dass ich alles über Text Mining weiß – daher meine Frage.
Mein Punkt ist, lesen Sie die Readme. Ich habe nicht einmal die Readme gelesen, ich habe nur Strg+F für CDS gemacht und herausgefunden, dass sie sich in den GNOMON- und GFF-Ordnern befinden

Antworten (3)

Der GNOMON- und GFF-Ordner enthält die gewünschten Dateien, GNOMON, wenn Sie die README-Datei überprüfen, bezieht sich auf den GNOMON-Genprädiktor, und GFF, denke ich, verweist auf dieselbe Datei zurück. Ich denke, die gewünschte Datei ref_Stegastes_partitus-1.0.2_scaffolds.gff3.gzenthält die Koordinaten auf den Gerüsten.

Und wie Sie sagten, Sie sind auf Linux, also ist der beste und geekyste Weg, zu gehen, awk.

awk '!/#/{if($3=="CDS")print}' ref_Stegastes_partitus-1.0.2_scaffolds.gff3 > SomeFile.gff3

AKTUALISIEREN


Dieser Teil ist von Python. Unter Bezugnahme auf die Antwort des vorherigen Benutzers, wenn Sie die GBK-Datei rna.gbk abrufen, sollten Sie damit CDS abrufen könnenbiopython

Sie sollten sich auch das Tutorial von Peter Cook zum Umgang mit Genbank-Dateien in Python ansehen

from Bio import SeqIO
from __future__ import print_function

Genome = SeqIO.parse("Examples/rna.gbk","genbank")
handle = open("Examples/rna.faa","w")
for genes in Genome:
    i=1
    for Feature in genes.features:
        if Feature.type=="CDS":
            FASTA=Feature.extract(genes.seq)
            print(">"+genes.id+"_CDS_"+str(i),file=handle)
            print(FASTA,file=handle) 
            i += 1

Ich würde empfehlen, dass Sie anaconda installieren , es ist eine Paketverwaltungssoftware, die bei der Installation ihre eigene Python-Version installiert und daneben etwa 400 verschiedene Pakete installiert. Eine Anleitung finden Sie unter dem Link. Diese Pakete sollten also mit dem Link kommen.

Nachdem Sie Anaconda installiert haben, fügen Sie den gesamten Code von dort oben in ein ein Myfile.pyund führen Sie es auf der Befehlszeile mit aus python Myfile.py.

Ich kann nicht hochstimmen (nicht genug Wiederholung), aber trotzdem +1. "Ich würde gerne alle vorhergesagten Kodierungssequenzen auf dem NCBI-ftp für eine Art abrufen." --> wir kommen näher! :)
meinst du irgendeine art?
Ja, zum Beispiel dieser (Stegastes partitus). (Siehe meine Bearbeitung)
CDS sind etwas anders, da diese spezielle Annotation mit GFF-Dateien zu den genomischen Koordinaten versehen ist. Und die Genome selbst haben viele Versionen in verschiedenen Stadien des Zusammenbaus, hauptsächlich Contig, Gerüst, zusammengesetztes Chromosom mit unbekannten Chromosomen, aber die Dateien sollten sich innerhalb von ./GFF/ befinden, und der Name ändert sich je nach Version und Stadium des Zusammenbaus des Genoms gff Datei betrifft
Ahh, du willst also die Sequenzen!
Ja! Entschuldigung, wenn dies nicht klar war.
Überprüfen Sie die Änderungen
Brillant! Vielen Dank :) Und in der Tat, die Webseite von Peter Cock ist wirklich hilfreich, das werde ich mir merken.

Der RNA-Ordner Ihres Links bietet mehrere kommentierte Dateiformate. Dazu gehört der Verweis auf die CDS für jedes Transkript.

Stegaste_partitus/RNA/

Laden Sie die Datei rna.gbk.gz herunter, entpacken Sie sie und öffnen Sie sie. Sie sehen CDS-Standortinformationen für jeden Eintrag.

Ja, aber dies bietet keinen "einfachen" Zugriff (wie eine Multifasta-Datei) auf alle CDs dieser Art.
Nicht wahr. Das würde einige Text-Mining-Fähigkeiten erfordern, wäre aber ziemlich einfach für jemanden, der über dieses Fachwissen verfügt, wenn Sie es haben oder jemanden kennen, der es hat. Ich bin nur ein Hacker.

Eine webbasierte Möglichkeit, diese Daten zu erhalten:

  1. Gehen Sie zur Seite der NCBI-Versammlung: https://www.ncbi.nlm.nih.gov/assembly und suchen Sie nach den Arten, die Sie interessieren. Hier wäre die Abfrage so etwas wie "Stegastes partitus"[Organism]die, die nur einen Treffer zurückgeben würde, der die neueste Referenzversion der Assembly ist. Da es nur einen Treffer gibt, werden Sie standardmäßig auf die Seite „Vollständiger Bericht“ geleitet. Klicken Sie auf den Link in der oberen linken Ecke und ändern Sie das Format „Vollständiger Bericht“ in „Zusammenfassung“.
  2. An dieser Stelle sehen Sie die Schaltfläche „Assemblies herunterladen“. Klicken Sie darauf, wählen Sie die Datenquelle als RefSeq und den Dateityp als „CDS from genomic“ und Sie können loslegen!