Terminologie der Sequenzen von Promotoren in Bezug auf DNA-Stränge

Ich studiere Molekularbiologie und versuche, ein Experiment zu verstehen, das die Bedeutung von Promotoren für das relative Transkriptionsniveau (RT) zeigt. Das folgende Bild stammt aus dem Buch "Molekulare Genetik" von Rolf Knippers (8. Auflage).

Geben Sie hier die Bildbeschreibung ein

Die Legende sagt (unter anderem):

Die erste Zeile gibt die normale "Wildtyp"-Sequenz der 5'-flankierenden Region wieder.

Was auf Englisch so viel bedeutet wie:

Die erste Linie wiederholt die normale Wildtyp-Sequenz der 5'-flankierenden Region.

Die rechte Spalte gibt das relative Transkriptionsniveau (RT) an, wobei 1,0 das höchstmögliche Transkriptionsniveau ist. Wie wir sehen können, ergeben die Zeilen, wo einige Teile der "5'-Region" deletiert wurden, ziemlich niedrige RT-Niveaus, da einige Regionen des Promotors fehlen.

Meine Fragen sind folgende:

1) Gemäß diesem und diesem verstehe ich, dass RNA-Polymerase sowohl codierende als auch nicht codierende Stränge liest und verwendet, um RNA zu synthetisieren. Wie schafften sie es also, die Sequenzen, in denen Strangregionen gelöscht worden waren, zu verwenden, um eine Polymerase dazu zu bringen, sie „zu lesen“ und eine Transkription durchzuführen?

2) Wenn die Polymerase den Matrizenstrang im Sinne von 3' -> 5' liest, sollten wir dann nicht von "ATAT-Box" oder "TAAC-Box" statt von "TATA"- oder "CAAT"-Boxen sprechen? Bedeutet das, dass die "Promotor"-Regionen, die sie in der obigen Grafik verwenden, sich tatsächlich auf dem codierenden Strang befinden?

Vielen Dank für deine Hilfe.

Könntest du dein Problem klären. Soweit ich sehen kann, sind die Ergebnisse (1) die Deletion des Globin-spezifischen Elements reduziert die Transkription auf 10% (2) eine weitere Deletion der CAAT-Box reduziert sie auf 2% (3) eine weitere Deletion der TATA-Box reduziert sie auf 0,5 %. Fragen Sie, warum die Werte für (1) und (2) nicht Null sind, sondern klein, aber ungleich Null? (Ich würde sagen, (3) ist null.) Außerdem sagen die von Ihnen zitierten Veröffentlichungen nichts über codierende Sequenzen (dh solche mit Tripletts, die Aminosäureinformationen enthalten). Meinst du Codierstränge ?
PS Ich habe Ihren Begriff "Codierungsstrang" verwendet, aber es ist einer, der am besten vermieden wird, da er immense Verwirrung stiftet. Wenn Sie Ihre erste Frage klären, werde ich auf Ihre zweite Frage eingehen, die veranschaulicht, welche Knoten Sie selbst knüpfen können, wenn Sie diese Begriffe verwenden.
@David Ja, ich meinte Codierungsstrang, tut mir leid. Das Hauptproblem, das ich habe (für meine 2. Frage), ist, dass ich nicht verstehe, warum der Promotor, da die RNA-Polymerase einen Matrizenstrang (dh einen nicht codierenden Strang) im Sinne von 3' -> 5' lesen soll Regionen (TATA-Box & Co.) befinden sich auf der 5'-Seite der Initiationsstelle der Transkription. Meine erste Frage betrifft tatsächlich die Methoden des Experiments: Wie könnte eine Polymerase einen Strang lesen oder verwenden, der im Sinne von 5' -> 3' ist (da sie im Sinn von 3' -> 5' lesen soll) und Außerdem, wie könnte sie es verwenden, da der Codierungsstrang nicht vorhanden ist?
Gensequenzen werden per Konvention als kodierender Strang angegeben. Dies sagt nichts darüber aus, an welchen Strang Transkriptionsfaktoren binden. Das Protein, das beispielsweise die TATA-Box bindet, interagiert tatsächlich mit beiden Strängen.
OK. Ihre Probleme scheinen die eines Anfängers zu sein, der mit den Konventionen nicht vertraut ist, die sich aus einer Kombination von Geschichte, logischer Konsistenz und wissenschaftlicher Neutralität in Bezug auf die Interpretation ergeben. Ich werde eine umfassende Antwort posten, wenn es sonst niemand tut. Aber jetzt ist seine Mahlzeit hier in Europa und ich bin morgen früh gefesselt.
Ich habe Ihre Frage bearbeitet, den Titel so geändert, dass er sich auf die Nomenklaturfrage konzentriert, und einige andere geringfügige Änderungen vorgenommen. Du kannst sie jederzeit zurücksetzen, wenn sie dir nicht gefallen.

Antworten (1)

Es scheint, dass diese Frage eine der Terminologie ist, also beantworte ich sie als solche.

Konvention zur Darstellung von Merkmalen in DNA-Sequenzen

Die Konvention ist, dass bei der Angabe eines beliebigen Sequenzmerkmals† in einem Protein-codierenden Gen auf doppelsträngiger DNA ein Einzelstrang‡ dargestellt wird – der, von dem die Aminosequenz unter Verwendung des genetischen Codes abgelesen werden kann (konzeptionell mit T anstelle von U). Sie wird, wie jede andere Nukleinsäuresequenz§, immer in 5ʹ-3ʹ-Richtung geschrieben, genauso wie die von ihr transkribierte mRNA, ohne dass dies explizit angegeben wird.

† Eine Ausnahme könnte die Hemimethylierung sein, in diesem Fall würden beide Stränge gezeigt.

‡ Ich nenne dies den Sinnesstrang . Auf die Nomenklatur gehe ich weiter unten ein.

§ Eine Ausnahme besteht darin, dass tRNA-Anticodons manchmal in Richtung 3′ nach 5′ geschrieben werden, um den Vergleich mit dem Codon zu erleichtern, aber in diesem Fall wird die Richtung angegeben.

Ursprung und Begründung dieser Konvention

  1. Historisch . Die Aminosäuresequenz des Proteins (des Genprodukts) ist von zentraler Bedeutung für diese Konvention, da die Kenntnis des genetischen Codes und damit die Darstellung der Region der mRNA, die das Protein codiert – und damit der DNA – die erste Sequenzinformation war bekannt sein.

  2. Logische Konsistenz . Später wurden andere Sequenzmerkmale identifiziert (von denen einige ursprünglich nur genetische Merkmale gewesen sein könnten), z. B. Ribosomenbindungsstellen, Polyadenylierungs-Additionssignale, Transkriptionsstartstellen, Promotoren, Transkriptionsfaktor-Erkennungsstellen. Es war logisch konsistent, sie auf demselben Strang wie die codierende Sequenz darzustellen.

  3. Funktionaler Agnostizismus . In vielen Fällen folgte die Funktion einer Sequenz ihrer Beschreibung, sodass es zunächst keinen Grund gab, sie einem bestimmten Strang zuzuordnen. Aber selbst wenn man dachte, dass die Funktion einer Sequenz auf dem gegenüberliegenden Strang (was ich den Antisense- Strang nennen würde) zu erkennen wäre, wäre es wissenschaftlich unklug, die Darstellung zu ändern, um dies anzuzeigen. Die Wissenschaft schreitet voran und die Interpretation ändert sich. Besser konkrete Beschreibungsmerkmale von Rückschlüssen auf ihre Funktion trennen.

Es konnte niemals eine ATAT-Box sein

Selbst wenn Sie die TATA-Box auf dem Antisense-Strang darstellen würden, könnte sie niemals als "ATAT-Box" bezeichnet werden (wie vom Poster vorgeschlagen), da ATAT gemäß der grundlegenden Konvention 5ʹ-ATAT-3ʹ ist und auf dem Antisense-Strang ist die Sequenz 3'-ATAT-5', dh TATA!

Terminologie zur Bezugnahme auf die beiden Stränge der dsDNA

Während das Obige die allgemein befolgte Konvention ist, ist das Folgende nur meine Meinung. In der Wissenschaftsterminologie ist es wichtig, Ideen unzweideutig zu kommunizieren, daher denke ich, dass es sich lohnt, die Mehrdeutigkeit in einigen der Begriffe zu erklären, von deren Verwendung ich abraten würde.

Sinn und Gegensinn Dies ist mein bevorzugter Begriff, weil er, obwohl er nicht perfekt ist, die Fallstricke der anderen vermeidet. Die Idee scheint mir klar zu sein, dass, wenn Sie die Kette von Codons lesen, die die Aminosäuresequenz von diesem Strang kodieren, sie "Sinn" machen. (Antisense wird gegenüber Nonsense bevorzugt verwendet, da „Nonsense“ der Begriff war, der historisch für Mutationen verwendet wurde, die Aminosäurecodons in Stopcodons umwandelten.) Er kann auch auf nicht-proteinkodierende Gene (z. B. für tRNA) ausgedehnt werden. , wobei „Sinn“ mit der Sequenz des Genprodukts korreliert.

Ich werde „Sinn“ und „Gegensinn“ als Referenzterminologie verwenden, wenn ich andere Begriffe erörtere.

Kodierend und nicht-kodierend Dies hat den Nachteil, dass es nicht auf Nicht-Protein-kodierende Gene erweitert werden kann. Mein Haupteinwand ist jedoch, dass dies zu Verwirrung führen kann, da sich die Codierung nur eindeutig auf mRNA bezieht. Da der Antisense-Strang die Matrize für die RNA-Polymerase ist, könnte man dies gedanklich mit „Codierung“ assoziieren, während in dieser (zugegebenermaßen üblichen) Verwendung der Sense-Strang gemeint ist.

Matrize und Nicht-Matrize Matrize könnte ein logischerer Begriff für den Antisense-Strang sein, da dies die Matrize für die Transkription durch die RNA-Polymerase ist (obwohl mRNA auch eine Matrize ist – für die Translation). Es wird jedoch nur selten verwendet.

Plus und Minus Diese Terminologie wird für einzelsträngige (insbesondere RNA) Viren verwendet, um das gesamte Genom darzustellen, wobei bei Plusstrangviren das Genom auch die mRNA, also der Sense-Strang, ist. Ein Problem dabei ist, dass es für den Anfänger verwirrend sein kann, der durch Extrapolation annehmen könnte, dass in doppelsträngigen DNA-Genomen ein Strang der Sinnstrang für alle Gene ist. Es ist nicht. Was mich zu meinem letzten Punkt bringt…

… welche Terminologie Sie auch immer verwenden, es ist besser sicherzustellen, dass klar ist, dass Sie sich auf den Sense- oder Antisense-Strang eines Gens beziehen , nicht auf das gesamte Genom . Sie müssen eine andere Terminologie verwenden, um zwischen den beiden Strängen von zB Bakterien- oder Plasmid-DNA zu unterscheiden, wenn es notwendig ist, sie zu unterscheiden.

Vielen Dank für Ihre vollständige Antwort! Es war sehr informativ und ich werde wahrscheinlich darauf zurückkommen, wenn ich wegen all dem wieder verwirrt bin. :)
@David Sehr hilfreiche Antwort, aber könnten Sie/jemand bitte eine Dokumentation (wie IUBMB) für "Die Konvention ist, dass bei der Angabe eines beliebigen Sequenzmerkmals† in einem proteinkodierenden Gen auf doppelsträngiger DNA ein Einzelstrang‡ dargestellt wird - diejenige, von der die Aminosequenz unter Verwendung des genetischen Codes abgelesen werden konnte (konzeptionell mit T anstelle von U)."? Zumal Konventionen menschengemachte Regeln sind und es deshalb eine allgemein zugängliche Dokumentation geben muss?
@AlwaysConfused - Ich habe das IUBMB überprüft, aber alles, was ich finden konnte, stammt aus den 1960er Jahren oder so ungefähr. Ich denke, die Frage nach der von der IUBMB genehmigten Terminologie weicht von den empirischen Praktiken ab, die von den Datenbanken angenommen werden. Ich habe das GenBank-Format sorgfältig studiert, um ein Computerprogramm zu schreiben, das es analysiert, also ist das, was ich geschrieben habe, im Grunde meine eigene Beschreibung davon. Das einzige Dokument, das ich habe, ist "The DDBJ/EMBL/GenBank Feature Table" (2000), das eher die Annotation als die Sequenzkonvention beschreibt". Vielleicht finden Sie etwas unter ncbi.nlm.nih.gov/WebSub/?tool=genbank .
Danke, ich werde es als separate Frage stellen, wie mit der Community besprochen. Und welche Seite(n) von BankIt (Ihr Link) werde ich überprüfen? Ich habe dort auf den Hyperlink geklickt, konnte aber nichts Nützliches zu meiner Frage finden. Außerdem kenne ich mich mit Bioinformatik noch nicht so gut aus.
Mir fehlt auch die Vorstellung von den Programmierskripten, die sie verwenden
@AlwaysConfused – Ich habe einen Link zu BankIt gegeben, denn wenn Sie Sequenzen einreichen, sagt es Ihnen vermutlich irgendwann explizit, was die Konvention ist. Sie müssten sich die Zeit nehmen, es gründlich zu überprüfen, um es herauszufinden.
Vielen Dank, dass Sie mir etwas über die Datenbank beigebracht haben. Momentan reiche ich keine Sequenz ein, aber ich versuche, die Grundlagen zu lernen, und zwar auf skeptische Weise.