Warum unterscheidet sich die Sequenz von Aminosäuren, die im Catalytic Site Atlas eines bestimmten Proteins präsentiert werden, von der Sequenz in der RSCB-Proteindatenbank

Ich wollte die Aminosäuresequenz von Enzymen für dieses Projekt, an dem ich arbeite, vergleichen und muss sie an ihrer katalytischen Stelle vergleichen. Dafür bin ich zum Catalitic Site Atlas gegangen , um Informationen über die katalytische Site zu erhalten, aber da sie mir keine einfache Möglichkeit bieten, die Strukturdaten programmgesteuert herunterzuladen, habe ich sie von der RSCB PDB heruntergeladen, indem ich die Fasta-Sequenz heruntergeladen habe. Als ich nach den katalytischen Stellen suchte, stimmte es nicht mit dem überein, was die CSA mir sagte, und da wurde mir klar, dass es sich um verschiedene Dateien handelt. Nehmen Sie zum Beispiel die 3nos, die CSA präsentiert die folgende Sequenz :

MGNLKS...

Während die PDB die folgende Sequenz darstellt :

PKFPRV...

Warum haben sie nicht dieselbe Sequenz, wenn es sich um dasselbe Protein handelt?

Tut mir leid, wenn es eine Noob-Frage ist, ich bin kein Biologe, nur ein Informatiker, der Bioinformatik mag.

Wichtige Info:

Die CSA-Daten stammen von hier, während die PDB-Daten von hier stammen

Bitte bearbeiten Sie Ihre Frage und geben Sie uns die genauen Links an, die Sie zum Herunterladen verwendet haben. Die einfachste Erklärung ist, dass Sie nicht dasselbe Protein betrachten, aber wir können nicht sicher sein, bis Sie genau zeigen, was Sie vergleichen. Zum Beispiel zeigt Ihr RCSB-Link zwei Sequenzen, aber keine Informationen darüber, von welcher Art sie stammen, welche Isoform oder ob sie das gesamte Protein sind. Tatsächlich sehen sie aus wie Proteinfragmente (die meisten Proteine ​​beginnen mit einem M). Ich vermute, dass Sie sich die gesamte Sequenz auf der einen Seite und eine Teilsequenz auf der anderen Seite ansehen, aber ich bin mir nicht sicher.
Bitte schön, tut mir leid

Antworten (3)

Kristallographie-Ergebnisse (PDB-Dateien) enthalten fast immer eine abgeschnittene Sequenz.

Beide Enden eines Proteins sind oft flexibel (sogar in einem Kristall) und liefern nicht genügend Daten für eine gute Anpassung. Die entsprechenden Reste werden aus dem Modell und der Sequenz entfernt und es bleiben nur die Reste übrig, die eine definierte Elektronendichte aufweisen.

Eine Sequenz ist teilweise in der anderen enthalten (hervorgehoben).

Die CSA-Sequenz ist also (FASTA-Format, abgeschnitten):

>sp|P29474|NOS3_HUMAN Nitric oxide synthase, endothelial OS=Homo sapiens GN=NOS3 PE=1 SV=3
MGNLKSVAQEPGPPCGLGLGLGLGLCGKQGPATPAPEPSRAPASLLPPAPEHSPPSSPLT QPPEG PKFPRVKNWEVGSITYDTLSAQAQQDGPCTPRRCLGSLVFPRKLQGRPSPGPPAP EQLLSQARDFINQYYSSIKRSGSQAHEQRLQEVEAEVAATGTYQLRESELVFGAKQAWRN ...

der Einfachheit halber von http://www.uniprot.org/uniprot/P29474 übernommen .

Während die PDB eine ist:

>3NOS:A|PDBID|CHAIN|SEQUENCE PKFPRVKNWEVGSITYDTLSAQAQQDGPCTPRRCLGSLVFPRKLQGRPSPGPPAPEQLLSQARDFINQYYSSIKRSGSQA HEQRLQEVEAEVAATGTYQLRESELVFGAKQAWRNAPRCVGRIQWGKLQVFDARDCRSAQEMFTYICNHIKYATNRGNLR SAITVFPQRCPGRGDFRIWNSQLVRYAGYRQQDGSVRGDPANVEITELCIQHGWTPGNGRFDVLPLLLQAPDEPPELFLL...

Der Uniprot-Eintrag erwähnt 3 verschiedene Isoformen aufgrund alternativen Spleißens, also ist es vielleicht das, was hier vor sich geht. Hier ist die Ausgabe eines Sequenzalignments (unter Verwendung von https://www.ebi.ac.uk/Tools/psa/emboss_matcher/ ):

#======================================
#
# Ausgerichtete_Sequenzen: 2
# 1: NOS3_MENSCH
# 2: SEQUENZ
# Matrix: EBLOSUM62
# Lückenstrafe: 14\
# Verlängerungsstrafe: 4
#
# Länge: 240
# Identität: 240/240 (100,0 %)
# Ähnlichkeit: 240/240 (100,0 %)
# Lücken: 0/240 ( 0,0 %)
# Punktzahl: 1294
#
#
#======================================

NOS3_HUMAN 66 PKFPRVKNWEVGSITYDTLSAQAQQDGPCTPRRCLGSLVFPRKLQGRPSP 115
                     ||||||||||||||||||||||||||||||||||||||||||||||||||
SEQUENZ 1 PKFPRVKNWEVGSITYDTLSAQAQQDGPCTPRRCLGSLVFPRKLQGRPSP 50

NOS3_HUMAN 116 GPPAPEQLLSQARDFINQYYSSIKRSGSQAHEQRLQEVEAEVAATGTYQL 165
                     ||||||||||||||||||||||||||||||||||||||||||||||||||
SEQUENZ 51 GPPAPEQLLSQARDFINQYYSSIKRSGSQAHEQRLQEVEAEVAATGTYQL 100

NOS3_HUMAN 166 RESELVFGAKQAWRNAPRCVGRIQWGKLQVFDARDCRSAQEMFTYICNHI 215
                     ||||||||||||||||||||||||||||||||||||||||||||||||||
SEQUENZ 101 RESELVFGAKQAWRNAPRCVGRIQWGKLQVFDARDCRSAQEMFTYICNHI 150

NOS3_HUMAN 216 KYATNRGNLRSAITVFPQRCPGRGDFRIWNSQLVRYAGYRQQDGSVRGDP 265
                     ||||||||||||||||||||||||||||||||||||||||||||||||||
SEQUENZ 151 KYATNRGNLRSAITVFPQRCPGRGDFRIWNSQLVRYAGYRQQDGSVRGDP 200

NOS3_HUMAN 266 ANVEITELCIQHGWTPGNGRFDVLPLLLQAPDEPPELFLL 305
                     ||||||||||||||||||||||||||||||||||||||||
SEQUENZ 201 ANVEITELCIQHGWTPGNGRFDVLPLLLQAPDEPPELFLL 240

Diese Antwort ist richtig, ich wollte nur hinzufügen, dass die korrekte Sequenznummerierung in der PDB-Datei im DBREF -Datensatz erhalten bleibt (was Sie sehen können, indem Sie die PDB in einem Texteditor öffnen):

DBREF 3NOS A 66 492 UNP P29474 NOS3_HUMAN 66 492

Im Klartext entspricht die in dieser Datei dargestellte Sequenz ( 3NOSchain A) den Resten 66- 492des zugehörigen UniProt ( UNP) -Eintrags (accession: P29474).