Bitte entschuldigen Sie, wenn dies woanders beantwortet wurde, aber ich konnte keine Antwort auf dieses Problem finden.
Ich möchte alle vorhergesagten Kodiersequenzen auf dem NCBI-ftp für eine bestimmte Art abrufen . Nehmen wir an, meine heutige Interessensspezies ist Stegasters partitus und ich gehe hierher . Ich weiß, wie ich alle vorhergesagten mRNAs (./RNA/Gnomon_mRNA.fsa) oder alle vorhergesagten Proteine (./protein/protein.fa) bekomme, aber ich kann nicht finden, wie ich die CDS bekomme ... ob es jemals möglich ist? Dies kann auf dem Ensembl FTP erfolgen .
Danke für jeden Einblick!
EDIT: Die Ausgabe wäre idealerweise eine Multifasta-Datei wie diese:
>Stegastes_partitus_gene1_cds
ATG(.................................)TAA
>Stegastes_partitus_gene2_cds
ATG(.............................)TGA
>Stegastes_partitus_gene3_cds
...
Der GNOMON- und GFF-Ordner enthält die gewünschten Dateien, GNOMON, wenn Sie die README-Datei überprüfen, bezieht sich auf den GNOMON-Genprädiktor, und GFF, denke ich, verweist auf dieselbe Datei zurück. Ich denke, die gewünschte Datei ref_Stegastes_partitus-1.0.2_scaffolds.gff3.gz
enthält die Koordinaten auf den Gerüsten.
Und wie Sie sagten, Sie sind auf Linux, also ist der beste und geekyste Weg, zu gehen, awk.
awk '!/#/{if($3=="CDS")print}' ref_Stegastes_partitus-1.0.2_scaffolds.gff3 > SomeFile.gff3
AKTUALISIEREN
Dieser Teil ist von Python. Unter Bezugnahme auf die Antwort des vorherigen Benutzers, wenn Sie die GBK-Datei rna.gbk abrufen, sollten Sie damit CDS abrufen könnenbiopython
Sie sollten sich auch das Tutorial von Peter Cook zum Umgang mit Genbank-Dateien in Python ansehen
from Bio import SeqIO
from __future__ import print_function
Genome = SeqIO.parse("Examples/rna.gbk","genbank")
handle = open("Examples/rna.faa","w")
for genes in Genome:
i=1
for Feature in genes.features:
if Feature.type=="CDS":
FASTA=Feature.extract(genes.seq)
print(">"+genes.id+"_CDS_"+str(i),file=handle)
print(FASTA,file=handle)
i += 1
Ich würde empfehlen, dass Sie anaconda installieren , es ist eine Paketverwaltungssoftware, die bei der Installation ihre eigene Python-Version installiert und daneben etwa 400 verschiedene Pakete installiert. Eine Anleitung finden Sie unter dem Link. Diese Pakete sollten also mit dem Link kommen.
Nachdem Sie Anaconda installiert haben, fügen Sie den gesamten Code von dort oben in ein ein Myfile.py
und führen Sie es auf der Befehlszeile mit aus python Myfile.py
.
Der RNA-Ordner Ihres Links bietet mehrere kommentierte Dateiformate. Dazu gehört der Verweis auf die CDS für jedes Transkript.
Laden Sie die Datei rna.gbk.gz herunter, entpacken Sie sie und öffnen Sie sie. Sie sehen CDS-Standortinformationen für jeden Eintrag.
Eine webbasierte Möglichkeit, diese Daten zu erhalten:
"Stegastes partitus"[Organism]
die, die nur einen Treffer zurückgeben würde, der die neueste Referenzversion der Assembly ist. Da es nur einen Treffer gibt, werden Sie standardmäßig auf die Seite „Vollständiger Bericht“ geleitet. Klicken Sie auf den Link in der oberen linken Ecke und ändern Sie das Format „Vollständiger Bericht“ in „Zusammenfassung“.
tsttst
GefaltetChromatin
GefaltetChromatin
Lorin
GefaltetChromatin