Wie bestimmt man den wahrscheinlichsten Leserahmen einer DNA-Sequenz?

Diese Frage stammt aus einer früheren Prüfungsarbeit für ein einführendes Bioinformatikmodul. Ich bin Informatiker und mache zum ersten Mal Biologie.

„Ein kurzes bakterielles Gen wurde sequenziert, was die folgende DNA-Sequenz ergibt. Schreiben Sie die 6 möglichen Leserahmen für diese Sequenz auf und geben Sie an, welches die wahrscheinlichste Proteinübersetzung dieser Sequenz ist. Erklären Sie Ihre Gründe für die Auswahl der gegebenen Übersetzung und schreiben Sie alles auf die Übersetzungen in Einbuchstaben-Aminosäurecodeform.

5' - ttattcatccgccagcgccatgcgcgccat - 3' "

Ich glaube, ich verstehe die 6 möglichen Leserahmen: drei vom 5'-Ende beginnend mit tta, tat und att; und drei vom 3'-Ende beginnend mit tac, acc und ccg.

Ich könnte auch die Übersetzungen für einen bestimmten Leserahmen mit einer Codon-Verwendungstabelle aufschreiben. Es ist der wahrscheinlichste Teil des Leserahmens, den ich nicht verstehe. Ich dachte, ich suche vielleicht nach dem längsten offenen Leserahmen. Ich sehe nur ein Startcodon (atg). Wie erkennt man den wahrscheinlichsten Leserahmen richtig?

Ich kann dieses Problem nicht genau auf Biology Stack Exchange finden. Ich habe gefunden:

Hilfe beim Lesen des Chromatogramms 

Ich habe mich gefragt, ob ich zwischen "Leserahmen" und "offenem Leserahmen" verwechselt werde, diese Frage stellt nur oder ersteres.

Danke!

Dies ist eine schrecklich künstliche Frage, aber unter der Annahme, dass die Sequenz den gesamten Leserahmen darstellt , was müssen Sie außer den Startcodons beachten? Ich mag Ihren Vorschlag zur Verwendung von Codons, aber er ist nicht so ausgefeilt.
Danke, dass Sie sich so schnell bei mir gemeldet haben. Ich bin mir immer noch nicht sicher, aber ich hatte ein paar Ideen.
1) Länge des Frames, lang genug, um etwas Nützliches zu codieren – aber das wäre immer noch die Länge zwischen einem Start- und einem Stoppcodon. 2) Vorhandensein von exprimierten Sequenz-Tags - obwohl ich nicht wüsste, wie ich Ihnen sagen soll, ob eine Sequenz einen EST enthält und ich vermute, dass sie länger als 30 Basen sind. 3) Das Vorhandensein von mehr oder weniger "wahrscheinlichen" Aminosäuren hat die Sequenz zB mehr der häufigsten Aminosäuren (was meiner Meinung nach Serin und Leucin sind) - aber ich glaube nicht, dass von uns erwartet wird, dass wir das wissen .
4) Das Vorhandensein gemeinsamer Untersequenzen, die beispielsweise auf gemeinsame Sekundärstrukturen hinweisen könnten – auch darüber haben wir in unserem Kurs nicht gesprochen. 5) Sequenzlesefehler im Labor. Suchen Sie nach Start- und Stoppcodons, wenn Sie nur eine (oder zwei) Basen geändert haben. Beispielsweise könnten Sie im Leserahmen, der mit „att“ am 5'-Ende beginnt, das erste Tripel in „atg“ ändern, um es zu einem Startcodon zu machen, dann hätte das letzte „cca“ vielleicht ein tta-Stoppcodon sein sollen. 6) Promoter-Websites?
Angesichts der Tatsache, dass Sie gesagt haben, dass es einfach ist, scheinen (2) bis (6) alle schwieriger zu sein als das, woran ich ursprünglich gedacht hatte. Generell kann ich nicht verstehen, wie es kein Stoppcodon haben und trotzdem ein Gen sein kann. Nochmals vielen Dank.
OK, ich habe eine Antwort gegeben.
Die 3 Leserahmen vom 3'-Ende verwenden den "anderen" DNA-Strang, das heißt ATG und zwei andere. Experten aus mathematischen und rechnergestützten Wissenschaften leisten nach einer gewissen Ausbildung einen großen Beitrag zur Bioinformatik. Viel Glück!

Antworten (1)

Dies ist, was wir als Hausaufgabe klassifizieren, aber da es das Kriterium erfüllt, dass das Poster einen Versuch der Beantwortung demonstriert, gebe ich den folgenden Antwortvorschlag.

Ich nehme an, dass die Prüfungsfrage, wie sie in einem einführenden Bioinformatikmodul auftauchte, nur Leserahmen (offensichtlich) und die Interpunktion des genetischen Codes testet . Die Bedeutung ist nicht ganz klar, aber da ein Leserahmen mit dem Initiationscodon ATG/AUG (umgekehrtes Komplement von: cat – 3′)† beginnen und mit dem Terminationscodon TAA/UAA (umgekehrtes Komplement von: 5′ – tta) enden würde ), die vermutlich „die wahrscheinlichste Proteintranslation“ hervorbringen wird.

Dies ist der Leserahmen F4 in der Ausgabe von EMBOSS Sixpack unten, in dem Terminationscodons durch ein Sternchen gekennzeichnet sind.

      L  F  I  R  Q  R  H  A  R  H                                   F1
       Y  S  S  A  S  A  M  R  A  X                                  F2
        I  H  P  P  A  P  C  A  P  X                                 F3
    1 ttattcatccgccagcgccatgcgcgccat 30
      ----:----|----:----|----:----|
    1 aataagtaggcggtcgcggtacgcgcggta 30
       X  N  M  R  W  R  W  A  R  W                                  F6
      X  I  *  G  G  A  G  H  A  G                                   F5
        *  E  D  A  L  A  M  R  A  M                                 F4

Die konzeptionelle Übersetzung, die N bis C liest , ist MARMELADE, was offensichtlich humorvoll gemeint ist und darauf hindeutet, dass dies tatsächlich die beabsichtigte Antwort ist.

Leserahmen öffnen

Das Poster bittet um Klärung des Unterschieds zwischen Leserahmen und offenem Leserahmen . Es gibt einen Wikipedia-Eintrag für den offenen Leserahmen, aber ich liefere eine eigene Erklärung, um ihn mit dem Beispiel in Verbindung zu bringen.

Es gibt immer sechs Leserahmen für die konzeptionelle Übersetzung eines Stücks doppelsträngiger DNA, wie im Beispiel gezeigt.

Ich würde einen offenen Leserahmen als einen Rahmen definieren , der nicht durch die Interpunktion des genetischen Codes von der Übersetzung ausgeschlossen ist. Es hat das theoretische Potenzial, übersetzt zu werden, wenn nur die Interpunktion des Codes berücksichtigt wird, obwohl es möglicherweise nicht tatsächlich übersetzt wird. Es kann entweder mit dem ersten AUG nach einem Terminationscodon beginnen (auch wenn nicht sicher sein kann, dass dies das tatsächlich verwendete AUG ist) oder mit dem Beginn eines sequenzierten DNA-Fragments (unter der Annahme, dass ein AUG vor dem 5'-Ende möglich ist). des Fragments). Es kann entweder mit einem Terminationscodon oder dem Ende des sequenzierten Fragments enden (unter der Annahme, dass ein Terminationscodon 5' zum Ende des Fragments liegt).

Nach diesen Kriterien sind die obigen Leserahmen F1, F2, F3 und F6 vollständig offen (obwohl das interne Methionin theoretisch ein Initiationscodon sein könnte), F5 enthält den offenen Leserahmen GAHGAGG und F4 ist möglicherweise ein vollständig offener Leserahmen ohne das Terminationscodon (abhängig von Ihrer semantischen Definition des genauen Endes eines offenen Leserahmens).

† Umgekehrtes Komplement

Wenn wir einen DNA-Abschnitt nehmen, der in der 5′-nach-3′-Richtung geschrieben ist – gemäß der Standardkonvention – und die Watson-Crick-Äquivalenzen der Basenpaarung (A = T, G = C) verwenden, um den komplementären Strang zu erzeugen , dies wird in der 3'-nach-5'-Richtung sein. Für den Strang in der Frage,

5′ - ttattcatccgccagcgccatgcgcgccat - 3′

Der komplementäre Strang ist:

3′ - aataagtaggcggtcgcggtacgcgcggta - 5′

Wie oben gezeigt.

Zur Erleichterung der manuellen Übersetzung – und für jedes Computerprogramm, das Sequenzen manipuliert – muss man dies in die 5′-zu-3′-Richtung umkehren :

5′ - atggcgcgcatggcgctggcggatgaataa - 3′

Dies ist die umgekehrte Ergänzung . Jetzt sind die Anfänge der drei umgekehrten Leserahmen einfach zu lesen als:

ATG...
 TGG...
  GGC...
Könnte hilfreich sein (insbesondere für jemanden ohne soliden Biologiehintergrund), um das Thema Reverse Complement zu erweitern. Basierend auf der Frage scheint es, dass dies höchstwahrscheinlich der Teil war, der dem OP Probleme bereitete.
@David Nun, ich fühle mich albern, aber auch dankbar für die hervorragende Antwort. Ich hatte einen Tunnelblick, aber jetzt ist es offensichtlich. Aus Interesse, was hat Sie dazu veranlasst, die Frage zunächst als „furchtbar künstlich“ zu bezeichnen?
@azure_reflection – Die meisten Proteine ​​sind viel länger als neun Aminosäuren, und Programme, die Gene vorhersagen, haben normalerweise einen Grenzwert von vielleicht 30. (Jemand anderes kann Ihnen vielleicht genaue Größenverteilungen geben.) Es gibt Ausnahmen (in der Biologie gibt es immer Ausnahmen). In Eukaryoten werden einige kleine Peptide durch Translation kleiner Orfs erzeugt, die dem vorherrschenden AUG vorangehen. Aber aus Erfahrung sympathisiere ich mit Dozenten, die problematische Prüfungsfragen stellen.
@Astrolamb — fertig.