Wie ist die Größe eines Gens definiert?

Gibt es eine vereinbarte Definition, aus wie vielen Nukleinsäurebasen ein Gen besteht?

Wenn nein, warum nicht? Ich bin mir nicht sicher, ob ich verstehe, wie die genauen Größen von Genen definiert sind.

@ user19099 Sicherlich gibt es einen Bereich. Von XX MB bis XX MB.
Ja, der Bereich reicht von 76 (tRNA) bis 80781 (Titin) bp beim Menschen.
Bei welcher Art? Mit welcher Definition von Gen? Ich denke, was Sie wirklich fragen, ist genau die Definition eines Gens (Sie werden vielleicht überrascht sein zu erfahren, dass es sich nicht um ein Schwarz-Weiß-Konzept handelt). Wenn das Ihre Frage ist, bitte klären.
Ich habe den Titel geändert, weil es nicht das Original des Posters war und wer ihn zuvor geändert hat, hat dies in einen Titel geändert, der den Inhalt der Frage nicht widerspiegelt. Der Fragesteller fragt eindeutig nicht nach der durchschnittlichen Größe eines Gens – obwohl eine der Antworten dies gewünscht hätte. Vielmehr scheint er wissen zu wollen, auf welcher Grundlage die Grenzen eines Gens definiert werden. (Anfangs dachte ich, er nimmt an, dass alle Gene eine bestimmte Größe haben, aber das wäre wirklich zu naiv. Es sind sicherlich nur begrenzte Englischkenntnisse.)
@David Der Titel des ursprünglichen Beitrags lautete "Was ist die durchschnittliche Länge eines Allels". Es geht nicht darum, dass Antwortende sich diesen Titel wünschen, daher ist es wahrscheinlich einfacher für sie zu antworten. Aufgrund Ihrer Bearbeitung scheinen jedoch einige Antworten jetzt "keine Antwort" zu sein. Warum lassen Sie das OP die Frage nicht selbst klären?
@WYSIWYG Wie dem auch sei. Der Titel spiegelte nicht die Frage wider – und die von Ihnen erwähnten Antworten auch nicht. Insbesondere gehen sie nicht auf den letzten Satz ein. Ich werde meine eigene Antwort umschreiben, um dies zu verdeutlichen. Was den Fragesteller betrifft, der eine Klarstellung gibt, hoffe ich, dass er dies tun wird.
Sie haben eine Frage gestellt, die Frage wurde beantwortet und dann haben Sie die Frage geändert. Bitte bearbeiten Sie einfach zurück, akzeptieren Sie die aktuelle Antwort und öffnen Sie einen neuen Beitrag für Ihre andere Frage.
@terdon Konzentrieren wir uns zuerst auf Menschen.
@ user19099: Die Zahl für das Titin-Gen ist nicht ganz richtig. TTN (Gen, das für Titin kodiert) selbst ist etwa 300 kb lang.
Tatsächlich ist TTN nicht einmal das größte Gen. Das größte, das ich gefunden habe, ist CNTNAP2 mit ca. 2,3 MB.
@alexdelarge Danke für diese Info! Ich habe nicht nach dem größten Gen gesucht, sondern nur nach der Größe von Titin :)

Antworten (3)

Gibt es eine einheitliche Definition darüber, wie viele Nukleobasen ein Gen bilden?

Wenn nein, warum nicht?

Eine solche Definition gibt es nicht. Ein Gen ist eine Region der DNA, die transkribiert wird. Typischerweise sollte ein Gen eine von einem Promotor vorgegebene Transkriptionsstartstelle und eine durch Terminationssignale (wie Terminatoren und Poly-A-Signal usw.) markierte Transkriptionsstoppstelle aufweisen.

Es gibt einige kleine RNAs (~18nt), die von TSS gewöhnlicher Gene produziert werden, aber wahrscheinlich Produkte einer fehlgeschlagenen Elongation sind. Diese werden nicht wirklich als Gene betrachtet, da sie heterogen in der Größe sind und durch keine Grenze gekennzeichnet sind.

Technisch gesehen kann es eine Mindestgrenze für die Genlänge geben, die die Länge der DNA sein könnte, die für die RNA-Polymerase erforderlich ist, um zu sitzen und auch die Terminationssignale einzuschließen. Wie in den Kommentaren angegeben, kann das kleinste Gen die tRNA sein. Das kleinste annotierte Gen aus den GENCODE-Annotationen ist jedoch TRDD1 (nur 7nt lang!!!). Dies basiert nicht auf einer Genvorhersage; es wird vom HAVANA- Team manuell kommentiert.


Was ist die durchschnittliche Länge eines Gens?

Ich habe gerade eine grobe Berechnung aus der GENCODE -Annotationsdatei für das menschliche Genom (Version 23) durchgeführt.

Die durchschnittliche Transkriptlänge scheint etwa 1,5 kb zu betragen.
Die durchschnittliche Genlänge scheint etwa 29 kbp zu betragen

Die Gene wären länger (oder gleich) ihren entsprechenden Transkripten, da letztere durch Spleißen verkürzt werden.

Der Einfachheit halber habe ich ein Histogramm dieser Längen erstellt:

Transkriptlängenverteilung

        Geben Sie hier die Bildbeschreibung ein


Genlängenverteilung

         Geben Sie hier die Bildbeschreibung ein

Beachten Sie die scharfen Spitzen bei 100 bp. Ziemlich interessant!


Remi hat user19099 erwähnt, dass Titin das längste Gen beim Menschen ist. Es scheint, dass es das längste Gen in vielen anderen verschiedenen Tieren ist. Siehe Was ist das längste bekannte Transkript? für mehr Details.


Methodik (damit Einschränkungen identifiziert werden können)

Um die Genlängenverteilung zu berechnen : Ich habe die GTF-Datei nach "Genen" (drittes Feld, dh Merkmal) analysiert und das fünfte Feld (Stopp) vom vierten (Start) subtrahiert.

So berechnen Sie die Transkriptlängenverteilung : Holen Sie sich die Transkript-Fasta-Datei von den annotierten Orten. Berechnete ihre Länge. Habe die Verteilung geplottet.

Ich zögerte, das zu tun, aber war zu faul! Gut gemacht. Beachten Sie jedoch, dass Ihr Durchschnitt doppelt so hoch ist wie der Durchschnitt von Strachan und Read (1999). Wissen Sie, was diese unterschiedlichen Schätzungen verursacht?
@Remi.b Nun, eine offensichtliche Erklärung könnte sein, dass wir jetzt mehr annotierte Gene haben als 1999.
... und wir haben 1999 überproportional kleine Gene annotiert. Es ist tatsächlich möglich. Wäre interessant, einen Beitrag zu dem Thema zu eröffnen.
@Remi.b Oder möglicherweise wurden die gesamten Gene nicht kommentiert. Mit besserer Sequenzierungstechnologie können wir die Gene besser kartieren.
Sehr informativ und besonders der Spike bei 100bp ist so interessant.
@Remi.b ja, denken Sie daran, dass das menschliche Genom 1999 nicht sequenziert wurde, also konnten diese Schätzungen nur auf dem beruhen, was sie hatten. Beachten Sie auch, dass sich WYSIWIG auf Transkripte bezieht und wir 1999 noch weniger Informationen über alternative Transkripte hatten als heute. Betrachten Sie schließlich lange, nicht codierende transkribierte Regionen, die in dem von WYSIWIG verwendeten Datensatz enthalten sein könnten (ich weiß es nicht) und die nicht wirklich als "Gene" als solche betrachtet würden. Naja, je nachdem wie man es definiert... :)
Oh..ok das macht jetzt mehr Sinn. Vielen Dank, dass Sie dieses Problem weiterverfolgt haben. +1
@WYSIWYG Vielen Dank dafür! Ich bin so glücklich, eine Verteilung dessen zu sehen, was ein menschliches "Gen" ausmacht.
@WYSIWYG das ist wirklich ordentlich. Können Sie mir den Quellcode für Ihr Genlängendiagramm zeigen, damit ich dieses Diagramm in einem anderen Modellorganismus nachbilden kann?
@Tom Ich habe einen Längenvektor aus der GTF-Datei erhalten. Es ist ziemlich einfach. Nehmen Sie einfach einen Unterschied von Start und Stopp. Für das Histogramm habe ich MATLAB verwendet. Dies kann auch in R und Python erfolgen.

Wie wird die Gengröße definiert?

DNA besteht aus 4 Nukleotiden A, T, Cund G. Eine Reihe solcher Nukleotide bilden jeden Abschnitt des Genoms, einschließlich der Gene. Die Anzahl der Nukleotide in einem Gen nennen wir die Gengröße. Natürlich könnte man über die Definition des genauen Anfangs und Endes (und Methoden zu ihrer Bestimmung) eines Gens diskutieren, aber dies ist eine Diskussion für ein anderes Mal.

Da DNA doppelsträngig ist, sprechen wir oft nicht von einer Sequenz von 10 Nukleotiden, sondern von einer Sequenz von 10 Basenpaaren (bp). Bei längeren Sequenzen können wir das Präfix „kilo (k)“ verwenden, um tausend Basenpaare anzugeben. Zum Beispiel: 12 kbp = 12.000 bp. Für noch größere Werte wird das Präfix „Mega (M)“ verwendet, um eine Million Basenpaare anzugeben. Beispiel: 7 MBit/s = 7.000 KBit/s = 7.000.000 Bit/s.

Durchschnittliche und mittlere Gengröße beim Menschen

Es gibt viele Unterschiede in der Gengröße zwischen den Genen innerhalb einer Art, aber auch zwischen den Arten. So sehr, dass ein Durchschnitt nicht viele Informationen vermittelt. Aber hier ist die durchschnittliche und mittlere Gengröße beim Menschen:

Die Extreme im menschlichen Genom

Wie @ user19099 sagte, ist das längste Gen im menschlichen Genom TTN, das für das Titin -Protein kodiert. TTN ist etwa 100 kbp lang. tRNA sind typischerweise sehr kurze Sequenzen (76-90 Nukleotide), aber bitte beachten Sie, dass diese Sequenzen niemals in Proteine ​​übersetzt werden.

Buchempfehlung

Das Buch A Short Guide to the Human Genome von Scherer ist sehr gut geeignet, um ein Gefühl dafür zu vermitteln, wie das menschliche Genom aussieht.

Wir könnten auch diskutieren, was ein Gen eigentlich ist und ob eine Entität wie das Gen, wie wir es sehen, überhaupt existiert. Gute Antwort aber!
Vielen Dank! Ja, die mittlere und mittlere Größe eines menschlichen Gens ist ungefähr das, was ich gefragt habe (eine der Fragen sowieso).

Auslegung der Frage

Sie fragen zwei Dinge: 1. die Anzahl der Nukleinsäurebasen, die ein Gen ausmachen, 2. (implizit) wie die Größe von Genen definiert ist. Die erste Frage erscheint seltsam naiv, aber die zweite deutet darauf hin, dass es sich möglicherweise um ein Missverständnis handelt. Deshalb will ich dort ansetzen.

Wie sind die Grenzen eines Gens definiert?

Gene werden in Bezug auf ihren Informationsgehalt definiert – am offensichtlichsten, um Proteine ​​zu spezifizieren, die einen Phänotyp verleihen können, aber auch um strukturelle und regulatorische RNA-Moleküle zu spezifizieren. Die Ausdehnung von Genen bzw. die Länge der von ihnen belegten DNA wird also durch ihren Informationsgehalt bestimmt.

Sind Gene in DNA-Boxen ähnlicher Größe enthalten?

Ihr erster Satz legt nahe, dass Sie denken, dass alle Gene eine feste Anzahl von Nukleinsäurebasen haben. Diese Vorstellung erscheint seltsam, da ihr Informationsgehalt auf der einfachsten Ebene (z. B. bei Bakterien) unterschiedlich groß ist mit der Größe ihrer Protein- oder RNA-Produkte. Vielleicht haben Sie jedoch die Vorstellung, dass das Genom in ähnlich große Regionen mit einem diskreten Anfang und Ende unterteilt ist, in denen die Informationen untergebracht sind (der Rest ist sozusagen Verpackung). Dies ist nicht der Fall.

Gene besetzen unterschiedliche Längen der DNA

Tatsächlich unterscheiden sich die Längen verschiedener Gene innerhalb einer Art und zwischen Arten. Bei einfachen Prokaryoten liegt dies hauptsächlich daran, dass sie Proteine ​​(oder RNAs) unterschiedlicher Länge kodieren. Bei Eukaryoten (wo die Gene im Allgemeinen viel größer sind) wird dies aufgrund der unterschiedlichen Anzahl und Größe ihrer Introns, die (normalerweise) kein Protein codieren, noch komplizierter.

Wie werden die Endpunkte eines Gens in der Praxis bestimmt?

Eine einfache Antwort auf das Obige (entsprechend der Ebene Ihrer ursprünglichen Frage) wäre, dass sich Gene von den Promotorregionen, an denen die RNA-Polymerase zur Transkription bindet, bis zum Transkriptionsterminationspunkt erstrecken. In erster Näherung können sie daher in der Praxis durch die Bereiche der DNA definiert werden, die mRNA (oder Prä-mRNA) oder andere RNAs spezifizieren. Die moderne Methode dafür wäre RNAseq.

(In der Praxis ist die Situation komplizierter, da es Bereiche der DNA geben kann, die die Expression beeinflussen, aber nicht transkribiert werden. Aber darüber würde ich mir im Moment keine Gedanken machen.)

@ShanZhengYang – Ich habe mich sehr bemüht zu verstehen, was Sie in Ihrer Frage gefragt haben. Wenn nicht, könnten Sie das bitte klären.
"Ihr erster Satz legt nahe, dass Sie denken, dass alle Gene eine feste Anzahl von Nukleinsäurebasen haben." Entschuldigung, das war nicht meine Absicht.
In meiner Frage habe ich mehrere Fragen gestellt, was zu einiger Verwirrung geführt hat. Vielen Dank, "Wie werden die Endpunkte eines Gens in der Praxis bestimmt?" war in der Tat eine meiner Fragen oben. Wir erforschen immer noch, wie Teile des Genoms zu Phänotypen führen, daher war mir nicht klar, wie wir uns der Grenzen von „Genen“, die zu „phänotypischen Merkmalen“ führen, so sicher sein konnten.
"Es kann Regionen der DNA geben, die die Expression beeinflussen, aber nicht transkribiert werden" Dies trifft den Kern meiner Frage. Also ... wie konnten diese Gengrenzen so klar definiert werden? RNA-Seq-Daten sind nicht so sauber ...
@ShanZhengYang — Danke für deine Klarstellung. Entschuldigung, wenn ich meine Antwort zu einfach war. Was das Problem der „unscharfen Grenzen“ anbelangt, stelle ich mir vor, dass Menschen einen bestimmten Ansatz verfolgen, der quantitative Vergleiche (zwischen Arten, zwischen Genen) zulässt, was indikativ ist, auch wenn es nicht perfekt ist. Für Bakterien mag es einfach sein, Promotoren und Terminationssignale zu identifizieren und diese zu verwenden; für Säugetiergene kann ein RNA-seq-Ansatz mit einem annotierten Genom am praktischsten sein. In verschiedenen Fällen können unterschiedliche Annahmen getroffen werden.