Ableitung der Proteinsequenzlänge von der Gen-DNA-Sequenzlänge

Gibt es eine Standardmethode, um die Proteinsequenzlänge von der Gen-DNA-Sequenzlänge des dafür codierenden Gens abzuleiten?

Naiverweise hatte ich angenommen, dass amino_acid_seq_length / 3 -1(Löschen eines für das Stoppcodon) funktionieren sollte, aber anscheinend nicht immer. Gibt es einen besseren Weg?

Nehmen wir an, das Gen ist eukaryotisch, speziell ein Pflanzengen.

z.B

Geben Sie hier die Bildbeschreibung ein

Oder

Geben Sie hier die Bildbeschreibung ein

(AA Seq. / 3 ) - 1 sollte eine gute Annäherung an Bakterien und Archaea sein. Da im Allgemeinen Transkript-RNA ausgereift ist. Im eukaryotischen Organismus gibt es alle Arten von Verarbeitungskomplexität. Wenn Sie also keine gespleißte Sequenz einführen, kennen Sie die Proteinsequenz nicht mit Sicherheit
Danke @SciEnt. Aber wenn Sie ein eukaryotisches Gen in etwas wie E. Coli exprimieren, sollte das resultierende rekombinante Protein immer noch (AA / 3) - 1 sein, da ihnen die Nachbearbeitungsmaschinerie fehlt?
Neugierige_Katze, wenn ja, würden wir das erwarten, Sie haben Recht.

Antworten (1)

Wenn Sie sich die DNA-Sequenz im Patent ansehen , werden Sie sehen, dass sie nicht mit ATG beginnt und nicht mit einem Stoppcodon endet. Die offenbarte Sequenz enthält einige zusätzliche Basen, daher die Diskrepanz in Protein- und DNA-Länge. Diese zusätzlichen Basen kommen fast immer in cDNA vor, z. B. aufgrund von Polyadenylierung, Kozak-Sequenzen usw.

Danke! Wenn Sie also die Sequenz für (sagen wir) heterologe Expression verwenden wollten, wäre es dann zwingend erforderlich, diese Aberrationen zu korrigieren? dh wie kann man auf die richtige Länge der Aminosäure schließen oder welche Basen genau die zusätzlichen Basen sind? Mit anderen Worten, wie "bereinigt" man eine cDNA-Sequenz?
Sie können ein Tool wie dieses verwenden: web.expasy.org/translate Geben Sie einfach die Sequenz ein und suchen Sie nach dem längsten offenen Leserahmen.
Nochmals vielen Dank Ashafix. Das erklärt mir einiges. Eine kleine Frage: Ihr Tool sagt im Fall meines zweiten Ausschnitts das richtige 569 AA-Protein voraus. Das ist großartig. Aber im Fall der ersten Sequenz gibt das Tool 569 aus, während das Patent-Snippet 570 auflistet AA? Mache ich einen Fehler? Oder....?
Scheint mir eine Verschleierung von Patentdaten zu sein, die tatsächliche Sequenz im Patent ist 569, aber wenn Sie sich die letzten 5 Aminosäuren in der übersetzten Sequenz ansehen, ist es PLGEE, während in der Patent-Aminosäuresequenz ein Aspartat aus dem Nichts auftaucht: PLDEE . Zwei Empfehlungen: 1) Fangen Sie an, Ihre Sequenzen mit einem Programm zu organisieren, es ist einfacher, sie visuell zu vergleichen. 2) Behandeln Sie Patente mit Vorsicht, sie müssen die Wahrheit sagen, sonst werden sie ungültig, aber sie sagen nicht unbedingt die ganze Wahrheit und es könnte tief im Patent versteckt sein, um den Leser zu verwirren.
Danke für die Tipps! Irgendwelche Empfehlungen für ein Programm, um meine Sequenzen zu organisieren? Was benutzt du?
Ich glaube nicht, dass es hier angebracht ist, kommerzielle Software zu empfehlen, aber auf Researchgate sollten Sie viele Hinweise finden.