Bestimmte Hefegene automatisiert herunterladen?

Ich habe 6 Gene der Hefe Candida albicans , nämlich orf19.723, orf19.5908, orf19.610, und . Und ich habe die entsprechenden Orthologen-Gene von anderen 16 Hefearten auf der Website des Broad Institute gefunden. Ich habe also alle Gennamen. Wie würde ich nun diese Gene gezielt herunterladen und woher kann ich das tun, am besten automatisiert?orf19.2119orf19.4998orf19.4056

Gibt es auch eine Standard-Namenskonvention? Denn die angegebenen ORF-Namen haben auch andere Namen wie BCR1, EFG1 und NDT80.

Die Liste der Gennamen, die ich habe:

The orthologs of C. Albicans with S. cerevisiae
orf19.2119  YHR124W 
orf19.4998  YBR033W YKL034W 
orf19.5908  YBR083W 
orf19.610   YMR016C YKL043W 
orf19.723   NONE
orf19.4056  YMR136W 

The orthologs of C. Albicans with S. paradoxus
orf19.2119  spar33-g1.1 
orf19.4998  spar197-g23.1   spar324-g3.1    
orf19.5908  spar200-g4.1    
orf19.610   spar184-g1.1    spar324-g10.1   
orf19.723   NONE
orf19.4056  spar165-g2.1

The orthologs of C. Albicans with S. mikatae
orf19.2119  NONE
orf19.4998  smik146-g12.1   smik109-g17.1   
orf19.5908  smik83-g2.1 
orf19.610   smik571-g2.1    smik109-g10.1   
orf19.723   NONE
orf19.4056  smik1535-g1.1   

The orthologs of C. Albicans with S. bayanus
orf19.2119  sbayc514-g9.1   
orf19.4998  sbayc611-g22.1  sbayc652-g20.1  
orf19.5908  sbayc678-g131.1 
orf19.610   sbayc638-g23.1  sbayc652-g27.1  
orf19.723   NONE
orf19.4056  sbayc657-g41.1

The orthologs of C. Albicans with S. castellii
orf19.2119  Scas697.24  
orf19.4998  Scas625.4   
orf19.5908  Scas718.27  Scas635.12  
orf19.610   Scas106.1   Scas709.52  Scas625.8   
orf19.723   NONE
orf19.4056  Scas680.22d 

The orthologs of C. Albicans with C. glabrata
orf19.2119  CAGL0L13090g    
orf19.4998  CAGL0L01947g    
orf19.5908  CAGL0M01716g    CAGL0F04081g    
orf19.610   CAGL0M07634g    CAGL0L01771g    
orf19.723   NONE
orf19.4056  CAGL0I00902g    CAGL0L06776g    

The orthologs of C. Albicans with S. kluyveri
orf19.2119  SAKL0E11330g    
orf19.4998  SAKL0A09812g    
orf19.5908  SAKL0B06578g    
orf19.610   SAKL0D13442g    
orf19.723   SAKL0A03476g    
orf19.4056  SAKL0E04862g    

The orthologs of C. Albicans with K. lactis
orf19.2119  KLLA0F24420g    
orf19.4998  KLLA0F25674g    
orf19.5908  KLLA0E12507g    
orf19.610   KLLA0F04840g    
orf19.723   NONE
orf19.4056  KLLA0F17116g    

The orthologs of C. Albicans with A. gossypii
orf19.2119  AGR347W 
orf19.4998  AFR275W 
orf19.5908  AER177W 
orf19.610   ABR055C 
orf19.723   NONE
orf19.4056  ADR249W 

The orthologs of C. Albicans with K. waltii
orf19.2119  Kwal33.14699    
orf19.4998  Kwal26.8099 
orf19.5908  Kwal27.12423    
orf19.610   Kwal26.8176 
orf19.723   NONE
orf19.4056  Kwal47.17849    

The orthologs of C. Albicans with C. tropicalis
orf19.2119  CTRG01097.3 
orf19.4998  CTRG03636.3 
orf19.5908  CTRG02294.3 
orf19.610   NONE
orf19.723   CTRG00608.3 
orf19.4056  CTRG04523.3 

The orthologs of C. Albicans with L. elongosporus
orf19.2119  LELG01178   
orf19.4998  NONE
orf19.5908  LELG02666   
orf19.610   LELG05390   
orf19.723   LELG03123   
orf19.4056  LELG01761   

The orthologs of C. Albicans with C. parapsilosis
orf19.2119  CPAG04608   
orf19.4998  NONE
orf19.5908  CPAG01691   
orf19.610   CPAG00178   
orf19.723   CPAG00564   
orf19.4056  CPAG05034   

The orthologs of C. Albicans with D. hansenii
orf19.2119  DEHA2A07282g    
orf19.4998  NONE
orf19.5908  DEHA2G13794g    
orf19.610   DEHA2E10978g    
orf19.723   DEHA2E05984g    
orf19.4056  DEHA2E07172g    DEHA2F25916g    

The orthologs of C. Albicans with C. guilliermondii
orf19.2119  PGUG02096.1 
orf19.4998  NONE
orf19.5908  PGUG04378.1 
orf19.610   PGUG03651.1 
orf19.723   PGUG05571.1 
orf19.4056  PGUG05533.1 

The orthologs of C. Albicans with C. lusitaniae
orf19.2119  CLUG00404   
orf19.4998  NONE
orf19.5908  CLUG04694   
orf19.610   CLUG02047   
orf19.723   CLUG00627   
orf19.4056  CLUG05535
Sie können sich Biopython ansehen , wenn Sie mit der Python-Programmierung vertraut sind
Auf welchem ​​OS würdest du das machen? Haben Sie Zugriff auf UNIX-Tools? Bitte zeigen Sie uns auch die restlichen Gennamen. Welche Kennungen hast du? Die Antwort hängt davon ab, auf welche Datenbank die Kennungen verweisen.
@terdon: Ich habe Unix-Tools (Debian ist das Betriebssystem). OK, ich werde die Gene auflisten.
Es wäre ganz einfach, wenn Sie Refseq/ENSEMBL-IDs für diese Gene haben.
@terdon: Ich habe die Frage aktualisiert.

Antworten (2)

Diese Sequenzen haben keine Standard-ID. Die Informationen in der Saccharomyces Genome Database sind ebenfalls veraltet (2005) und haben diese Identifikatoren nicht.

Diese Sequenzen finden Sie hier (auf derselben Seite).

Jede Art hat einen Kurznamen:

ORGANISMUS 
Kurzname S. cerevesiae Scer
S. bayanus Sbay
S. paradoxus Spar
A. gossypii Agos

.... usw. 

Erster Buchstabe des Gattungsnamens in Großbuchstaben + die ersten 3 Buchstaben des Artnamens in Kleinbuchstaben.

Die Fasta-Datei (für alle ORFs) lautet:
www.broadinstitute.org/regev/orthogroups/nt/<Shortname>.fasta

Von dort aus können Sie grep verwenden, um die Sequenz abzurufen.

Wenn Sie also Kurznamen und Gennamen in zwei separaten Dateien gespeichert haben, können Sie Folgendes tun:

for shortname in `cat shortname.txt`; do wget -O tmp.fa "http://www.broadinstitute.org/regev/orthogroups/nt/"$shortname.fasta; grep -A 1 -f ids.txt tmp.fa >> $shortname"_Select.fa"; done
OK danke, das war wirklich hilfreich.
@dexterdev Der Suchcode kann besser und schneller gemacht werden, je nachdem, was Sie wirklich als Ausgabe wollen.
@dexterdev Die erste ist die Nukleotidsequenz und die zweite die Proteinsequenz. Ich habe den ersten Link gegeben, weil Sie sagten, Sie wollten Nukleotid.
Sorry für die blöde Frage. Ich habe es mir angeschaut, aber das ist mir nicht aufgefallen. Verzeihung.

OK, der erste Schritt muss darin bestehen, alle diese IDs derselben Datenbank zuzuordnen. Versuchen Sie, http://uniprot.org zu verwenden, wenn Sie andere Proteinsequenzen wünschen, suchen Sie nach jeder von ihnen und finden Sie die entsprechende Refseq-ID. Da Sie IDs aus mehreren Datenbanken haben, müssen Sie sie möglicherweise einzeln googeln. Wenn Sie den ID-Typ jedes Identifikators kennen, können Sie ihn mit einem Tool wie dem Gene Name Converter von DAVID automatisieren.

Sobald Sie eine Liste mit IDs aus derselben Datenbank haben, speichern Sie sie in einer Datei (eine ID pro Zeile). Dann können Sie für UniProt-Akzessionen die FASTA-Proteinsequenz erhalten, indem Sie Folgendes ausführen:

while read name; do wget -O - http://uniprot.org/$name.fasta; done < names.txt

Für RefSeq-IDs können Sie das Stapelabruftool von Entrez verwenden.

Hilfreiche Antwort. Eine Sache, ich arbeite nicht an Proteinsequenzen, sondern nur an Nukleotidsequenzen.
Als ich diese IDs googelte, konnte ich keine Übereinstimmung in einer Datenbank finden. Ich habe SGD überprüft, aber ihr Repository (vom MIT) ist veraltet (2005). Schon damals hatte die orf fasta-Datei ( S.paradoxus ) keine Kennung wie spar*oder SPAR*. Beispiel; erster Fasta-Header: ORFN:24882 YPRWsigma4, Contig c301 66351-67256. Diese stammen noch nicht einmal aus der Komplettmontage; es sagt contig.