Wie erhalte ich das richtige RefSeq-Protein-Transkript für ein bestimmtes RefSeq-Nukleotid-Transkript?

Wie erhalte ich eine versionierte Protein-Zugangsnummer für eine Refseq-Zugangsnummer?

Ich habe einige versionierte RefSeq-Zugangsnummern und würde gerne ihre entsprechenden Protein-Zugangsnummern wissen.

Laut RefSeqFAQ http://www.ncbi.nlm.nih.gov/books/NBK50679/#RefSeqFAQ.what_causes_the_version_number gibt es keine 1-zu-1-Zuordnung zwischen diesen Nummern.

Außerdem haben Nukleotid- (NM_, XM_) und Protein- (NP_, XP) Datensätze für dasselbe Transkript nach einer Aktualisierung möglicherweise nicht dieselbe Versionsnummer. Beispielsweise würde eine Aktualisierung der 5'-UTR eines RefSeq-Nukleotiddatensatzes eine Änderung der Versionsnummer für den aktualisierten Nukleotiddatensatz bewirken, jedoch nicht für den entsprechenden Proteindatensatz. Umgekehrt würde eine Änderung der annotierten Startstelle der codierenden Sequenz ohne eine Änderung der zugrunde liegenden Nukleotidsequenz eine Aktualisierung der Versionsnummer für die verursachen NP_, jedoch nicht für die NM_.

Ich habe das versucht, aber es gibt mir einen riesigen

>>> from Bio import Entrez
>>> Entrez.email='email@example.com'
>>> f = file('entrez_NM_005529.5.txt', 'w')
>>> print >>f,  Entrez.efetch(
...     db="protein",id="NM_005529.5", rettype="native", retmode="xml").read()

Die XML-Ergebnisse enthalten die Protein Acc No, <Textseq-id_accession>NP_005520</Textseq-id_accession>aber es ist keine Version angegeben. Gibt es eine einfache Möglichkeit, die passende Proteintranskriptversion zu erhalten?

Haben Sie es immer mit der neusten nt-Version zu tun, oder müssen Sie frühere bekommen?

Antworten (1)

Es gibt einen anderen einfachen Weg für menschliche Sequenzen.

Gehen Sie zu RefSeq FTP und laden Sie die LRG_RefSeqGene-Datei herunter . Diese Datei enthält aktualisierte Zuordnungen zwischen den Gen-, mRNA- und Proteinsequenzen (neueste Versionen).

Aus README :

    Tab-delimited file reporting, for each Gene, the accession.version
      of the genomic and RNA and protein RefSeqs the RefSeqGene/LRG 
      project treats as reference standards.  

    The columns are:
      NCBI taxonomy id (all 9606)
      GeneID 
      Symbol of the gene (official from HGNC when available)
      Accession.version of the standard RefSeq
      Term describing the RefSeq 
         RefSeqGene              genomic sequence
         Ref Std, nucleotide     RNA sequence
         Ref Std, protein        protein sequence

      The LRG equivalent of the RefSeq standard
         LRG:                    genomic sequence
         t1                      locations for transcript 1
         p1                      CDS from transcript 1

         NOTE: t values can be > 1 ,  the integer assigned to t
               is matched by the integer assigned to p

Ein paar Zeilen aus der Datei:

9606    3329    HSPD1   NG_008915.1     NM_199440.1     NP_955472.1     reference standard
9606    3329    HSPD1   NG_008915.1     NM_002156.4     NP_002147.2     aligned: Selected
9606    3336    HSPE1   NG_008914.1     NM_002157.2     NP_002148.1     reference standard
9606    3339    HSPG2   NG_016740.1     NM_005529.6     NP_005520.4     reference standard

Für andere Organismen ist das nicht so einfach. Für sie sollten Sie entweder die mRNA-Seite parsen, um die RefSeq-Protein-ID zu finden, oder zu den speziell dafür vorgesehenen Datenbanken (wie FlyBase für Drosophila) gehen und Informationen über die Gen-zu-Protein-Zuordnung erhalten.

Um RefSeq-Datensätze vom NCBI mithilfe von Parsing zu erhalten, sollten Sie zuerst die GI-Zugangsnummer erhalten, die der mRNA entspricht.

Beispiel: NM_007393(Maus Beta-Aktin)

http://eutils.ncbi.nlm.nih.gov/entrez/eutils/esearch.fcgi?db=nucleotide&term=NM_007393

was die GI-Zugangsnummer ergeben würde: 930945786.

Holen Sie sich dann das Protein GI mit dieser Zugangsnummer:

http://eutils.ncbi.nlm.nih.gov/entrez/eutils/elink.fcgi?dbfrom=nucleotide&db=protein&id=930945786

was die GI-Zugangsnummer ergibt:6671509

Rufen Sie schließlich die RefSeq-ID (falls verfügbar) ab, die diesem GI-Zugang entspricht. Sie können die Funktionstabelle herunterladen und nach der RefSeq-ID suchen:

http://eutils.ncbi.nlm.nih.gov/entrez/eutils/elink.fcgi?dbfrom=nucleotide&db=protein&id=930945786&rettype=ft

Weitere Informationen zur Verwendung von Entrez E-Utilities finden Sie hier .

Danke für eine sehr umfassende Antwort. Glücklicherweise habe ich es nur mit Menschen zu tun, aber dies wird anderen als sehr nützliche Erklärung dienen.