Wie erhalte ich eine versionierte Protein-Zugangsnummer für eine Refseq-Zugangsnummer?
Ich habe einige versionierte RefSeq-Zugangsnummern und würde gerne ihre entsprechenden Protein-Zugangsnummern wissen.
Laut RefSeqFAQ http://www.ncbi.nlm.nih.gov/books/NBK50679/#RefSeqFAQ.what_causes_the_version_number gibt es keine 1-zu-1-Zuordnung zwischen diesen Nummern.
Außerdem haben Nukleotid- (NM_, XM_) und Protein- (NP_, XP) Datensätze für dasselbe Transkript nach einer Aktualisierung möglicherweise nicht dieselbe Versionsnummer. Beispielsweise würde eine Aktualisierung der 5'-UTR eines RefSeq-Nukleotiddatensatzes eine Änderung der Versionsnummer für den aktualisierten Nukleotiddatensatz bewirken, jedoch nicht für den entsprechenden Proteindatensatz. Umgekehrt würde eine Änderung der annotierten Startstelle der codierenden Sequenz ohne eine Änderung der zugrunde liegenden Nukleotidsequenz eine Aktualisierung der Versionsnummer für die verursachen
NP_
, jedoch nicht für dieNM_
.
Ich habe das versucht, aber es gibt mir einen riesigen
>>> from Bio import Entrez
>>> Entrez.email='email@example.com'
>>> f = file('entrez_NM_005529.5.txt', 'w')
>>> print >>f, Entrez.efetch(
... db="protein",id="NM_005529.5", rettype="native", retmode="xml").read()
Die XML-Ergebnisse enthalten die Protein Acc No, <Textseq-id_accession>NP_005520</Textseq-id_accession>
aber es ist keine Version angegeben. Gibt es eine einfache Möglichkeit, die passende Proteintranskriptversion zu erhalten?
Es gibt einen anderen einfachen Weg für menschliche Sequenzen.
Gehen Sie zu RefSeq FTP und laden Sie die LRG_RefSeqGene-Datei herunter . Diese Datei enthält aktualisierte Zuordnungen zwischen den Gen-, mRNA- und Proteinsequenzen (neueste Versionen).
Aus README :
Tab-delimited file reporting, for each Gene, the accession.version
of the genomic and RNA and protein RefSeqs the RefSeqGene/LRG
project treats as reference standards.
The columns are:
NCBI taxonomy id (all 9606)
GeneID
Symbol of the gene (official from HGNC when available)
Accession.version of the standard RefSeq
Term describing the RefSeq
RefSeqGene genomic sequence
Ref Std, nucleotide RNA sequence
Ref Std, protein protein sequence
The LRG equivalent of the RefSeq standard
LRG: genomic sequence
t1 locations for transcript 1
p1 CDS from transcript 1
NOTE: t values can be > 1 , the integer assigned to t
is matched by the integer assigned to p
Ein paar Zeilen aus der Datei:
9606 3329 HSPD1 NG_008915.1 NM_199440.1 NP_955472.1 reference standard
9606 3329 HSPD1 NG_008915.1 NM_002156.4 NP_002147.2 aligned: Selected
9606 3336 HSPE1 NG_008914.1 NM_002157.2 NP_002148.1 reference standard
9606 3339 HSPG2 NG_016740.1 NM_005529.6 NP_005520.4 reference standard
Für andere Organismen ist das nicht so einfach. Für sie sollten Sie entweder die mRNA-Seite parsen, um die RefSeq-Protein-ID zu finden, oder zu den speziell dafür vorgesehenen Datenbanken (wie FlyBase für Drosophila) gehen und Informationen über die Gen-zu-Protein-Zuordnung erhalten.
Um RefSeq-Datensätze vom NCBI mithilfe von Parsing zu erhalten, sollten Sie zuerst die GI-Zugangsnummer erhalten, die der mRNA entspricht.
Beispiel: NM_007393
(Maus Beta-Aktin)
http://eutils.ncbi.nlm.nih.gov/entrez/eutils/esearch.fcgi?db=nucleotide&term=NM_007393
was die GI-Zugangsnummer ergeben würde: 930945786
.
Holen Sie sich dann das Protein GI mit dieser Zugangsnummer:
http://eutils.ncbi.nlm.nih.gov/entrez/eutils/elink.fcgi?dbfrom=nucleotide&db=protein&id=930945786
was die GI-Zugangsnummer ergibt:6671509
Rufen Sie schließlich die RefSeq-ID (falls verfügbar) ab, die diesem GI-Zugang entspricht. Sie können die Funktionstabelle herunterladen und nach der RefSeq-ID suchen:
http://eutils.ncbi.nlm.nih.gov/entrez/eutils/elink.fcgi?dbfrom=nucleotide&db=protein&id=930945786&rettype=ft
Weitere Informationen zur Verwendung von Entrez E-Utilities finden Sie hier .
Terdon