Ich wollte die Aminosäuresequenz von Enzymen für dieses Projekt, an dem ich arbeite, vergleichen und muss sie an ihrer katalytischen Stelle vergleichen. Dafür bin ich zum Catalitic Site Atlas gegangen , um Informationen über die katalytische Site zu erhalten, aber da sie mir keine einfache Möglichkeit bieten, die Strukturdaten programmgesteuert herunterzuladen, habe ich sie von der RSCB PDB heruntergeladen, indem ich die Fasta-Sequenz heruntergeladen habe. Als ich nach den katalytischen Stellen suchte, stimmte es nicht mit dem überein, was die CSA mir sagte, und da wurde mir klar, dass es sich um verschiedene Dateien handelt. Nehmen Sie zum Beispiel die 3nos, die CSA präsentiert die folgende Sequenz :
MGNLKS...
Während die PDB die folgende Sequenz darstellt :
PKFPRV...
Warum haben sie nicht dieselbe Sequenz, wenn es sich um dasselbe Protein handelt?
Tut mir leid, wenn es eine Noob-Frage ist, ich bin kein Biologe, nur ein Informatiker, der Bioinformatik mag.
Wichtige Info:
Die CSA-Daten stammen von hier, während die PDB-Daten von hier stammen
Kristallographie-Ergebnisse (PDB-Dateien) enthalten fast immer eine abgeschnittene Sequenz.
Beide Enden eines Proteins sind oft flexibel (sogar in einem Kristall) und liefern nicht genügend Daten für eine gute Anpassung. Die entsprechenden Reste werden aus dem Modell und der Sequenz entfernt und es bleiben nur die Reste übrig, die eine definierte Elektronendichte aufweisen.
Eine Sequenz ist teilweise in der anderen enthalten (hervorgehoben).
Die CSA-Sequenz ist also (FASTA-Format, abgeschnitten):
>sp|P29474|NOS3_HUMAN Nitric oxide synthase, endothelial OS=Homo sapiens GN=NOS3 PE=1 SV=3
MGNLKSVAQEPGPPCGLGLGLGLGLCGKQGPATPAPEPSRAPASLLPPAPEHSPPSSPLT QPPEG PKFPRVKNWEVGSITYDTLSAQAQQDGPCTPRRCLGSLVFPRKLQGRPSPGPPAP EQLLSQARDFINQYYSSIKRSGSQAHEQRLQEVEAEVAATGTYQLRESELVFGAKQAWRN ...
der Einfachheit halber von http://www.uniprot.org/uniprot/P29474 übernommen .
Während die PDB eine ist:
>3NOS:A|PDBID|CHAIN|SEQUENCE PKFPRVKNWEVGSITYDTLSAQAQQDGPCTPRRCLGSLVFPRKLQGRPSPGPPAPEQLLSQARDFINQYYSSIKRSGSQA HEQRLQEVEAEVAATGTYQLRESELVFGAKQAWRNAPRCVGRIQWGKLQVFDARDCRSAQEMFTYICNHIKYATNRGNLR SAITVFPQRCPGRGDFRIWNSQLVRYAGYRQQDGSVRGDPANVEITELCIQHGWTPGNGRFDVLPLLLQAPDEPPELFLL...
Der Uniprot-Eintrag erwähnt 3 verschiedene Isoformen aufgrund alternativen Spleißens, also ist es vielleicht das, was hier vor sich geht. Hier ist die Ausgabe eines Sequenzalignments (unter Verwendung von https://www.ebi.ac.uk/Tools/psa/emboss_matcher/ ):
#====================================== # # Ausgerichtete_Sequenzen: 2 # 1: NOS3_MENSCH # 2: SEQUENZ # Matrix: EBLOSUM62 # Lückenstrafe: 14\ # Verlängerungsstrafe: 4 # # Länge: 240 # Identität: 240/240 (100,0 %) # Ähnlichkeit: 240/240 (100,0 %) # Lücken: 0/240 ( 0,0 %) # Punktzahl: 1294 # # #====================================== NOS3_HUMAN 66 PKFPRVKNWEVGSITYDTLSAQAQQDGPCTPRRCLGSLVFPRKLQGRPSP 115 |||||||||||||||||||||||||||||||||||||||||||||||||| SEQUENZ 1 PKFPRVKNWEVGSITYDTLSAQAQQDGPCTPRRCLGSLVFPRKLQGRPSP 50 NOS3_HUMAN 116 GPPAPEQLLSQARDFINQYYSSIKRSGSQAHEQRLQEVEAEVAATGTYQL 165 |||||||||||||||||||||||||||||||||||||||||||||||||| SEQUENZ 51 GPPAPEQLLSQARDFINQYYSSIKRSGSQAHEQRLQEVEAEVAATGTYQL 100 NOS3_HUMAN 166 RESELVFGAKQAWRNAPRCVGRIQWGKLQVFDARDCRSAQEMFTYICNHI 215 |||||||||||||||||||||||||||||||||||||||||||||||||| SEQUENZ 101 RESELVFGAKQAWRNAPRCVGRIQWGKLQVFDARDCRSAQEMFTYICNHI 150 NOS3_HUMAN 216 KYATNRGNLRSAITVFPQRCPGRGDFRIWNSQLVRYAGYRQQDGSVRGDP 265 |||||||||||||||||||||||||||||||||||||||||||||||||| SEQUENZ 151 KYATNRGNLRSAITVFPQRCPGRGDFRIWNSQLVRYAGYRQQDGSVRGDP 200 NOS3_HUMAN 266 ANVEITELCIQHGWTPGNGRFDVLPLLLQAPDEPPELFLL 305 |||||||||||||||||||||||||||||||||||||||| SEQUENZ 201 ANVEITELCIQHGWTPGNGRFDVLPLLLQAPDEPPELFLL 240
Diese Antwort ist richtig, ich wollte nur hinzufügen, dass die korrekte Sequenznummerierung in der PDB-Datei im DBREF -Datensatz erhalten bleibt (was Sie sehen können, indem Sie die PDB in einem Texteditor öffnen):
DBREF 3NOS A 66 492 UNP P29474 NOS3_HUMAN 66 492
Im Klartext entspricht die in dieser Datei dargestellte Sequenz ( 3NOS
chain A
) den Resten 66
- 492
des zugehörigen UniProt ( UNP
) -Eintrags (accession: P29474
).
Terdon
João Areias