Gibt es eine vereinbarte Definition, aus wie vielen Nukleinsäurebasen ein Gen besteht?
Wenn nein, warum nicht? Ich bin mir nicht sicher, ob ich verstehe, wie die genauen Größen von Genen definiert sind.
Gibt es eine einheitliche Definition darüber, wie viele Nukleobasen ein Gen bilden?
Wenn nein, warum nicht?
Eine solche Definition gibt es nicht. Ein Gen ist eine Region der DNA, die transkribiert wird. Typischerweise sollte ein Gen eine von einem Promotor vorgegebene Transkriptionsstartstelle und eine durch Terminationssignale (wie Terminatoren und Poly-A-Signal usw.) markierte Transkriptionsstoppstelle aufweisen.
Es gibt einige kleine RNAs (~18nt), die von TSS gewöhnlicher Gene produziert werden, aber wahrscheinlich Produkte einer fehlgeschlagenen Elongation sind. Diese werden nicht wirklich als Gene betrachtet, da sie heterogen in der Größe sind und durch keine Grenze gekennzeichnet sind.
Technisch gesehen kann es eine Mindestgrenze für die Genlänge geben, die die Länge der DNA sein könnte, die für die RNA-Polymerase erforderlich ist, um zu sitzen und auch die Terminationssignale einzuschließen. Wie in den Kommentaren angegeben, kann das kleinste Gen die tRNA sein. Das kleinste annotierte Gen aus den GENCODE-Annotationen ist jedoch TRDD1 (nur 7nt lang!!!). Dies basiert nicht auf einer Genvorhersage; es wird vom HAVANA- Team manuell kommentiert.
Was ist die durchschnittliche Länge eines Gens?
Ich habe gerade eine grobe Berechnung aus der GENCODE -Annotationsdatei für das menschliche Genom (Version 23) durchgeführt.
Die durchschnittliche Transkriptlänge scheint etwa 1,5 kb zu betragen.
Die durchschnittliche Genlänge scheint etwa 29 kbp zu betragen
Die Gene wären länger (oder gleich) ihren entsprechenden Transkripten, da letztere durch Spleißen verkürzt werden.
Der Einfachheit halber habe ich ein Histogramm dieser Längen erstellt:
Transkriptlängenverteilung
Genlängenverteilung
Beachten Sie die scharfen Spitzen bei 100 bp. Ziemlich interessant!
Remi hat user19099 erwähnt, dass Titin das längste Gen beim Menschen ist. Es scheint, dass es das längste Gen in vielen anderen verschiedenen Tieren ist. Siehe Was ist das längste bekannte Transkript? für mehr Details.
Um die Genlängenverteilung zu berechnen : Ich habe die GTF-Datei nach "Genen" (drittes Feld, dh Merkmal) analysiert und das fünfte Feld (Stopp) vom vierten (Start) subtrahiert.
So berechnen Sie die Transkriptlängenverteilung : Holen Sie sich die Transkript-Fasta-Datei von den annotierten Orten. Berechnete ihre Länge. Habe die Verteilung geplottet.
Wie wird die Gengröße definiert?
DNA besteht aus 4 Nukleotiden A
, T
, C
und G
. Eine Reihe solcher Nukleotide bilden jeden Abschnitt des Genoms, einschließlich der Gene. Die Anzahl der Nukleotide in einem Gen nennen wir die Gengröße. Natürlich könnte man über die Definition des genauen Anfangs und Endes (und Methoden zu ihrer Bestimmung) eines Gens diskutieren, aber dies ist eine Diskussion für ein anderes Mal.
Da DNA doppelsträngig ist, sprechen wir oft nicht von einer Sequenz von 10 Nukleotiden, sondern von einer Sequenz von 10 Basenpaaren (bp). Bei längeren Sequenzen können wir das Präfix „kilo (k)“ verwenden, um tausend Basenpaare anzugeben. Zum Beispiel: 12 kbp = 12.000 bp. Für noch größere Werte wird das Präfix „Mega (M)“ verwendet, um eine Million Basenpaare anzugeben. Beispiel: 7 MBit/s = 7.000 KBit/s = 7.000.000 Bit/s.
Durchschnittliche und mittlere Gengröße beim Menschen
Es gibt viele Unterschiede in der Gengröße zwischen den Genen innerhalb einer Art, aber auch zwischen den Arten. So sehr, dass ein Durchschnitt nicht viele Informationen vermittelt. Aber hier ist die durchschnittliche und mittlere Gengröße beim Menschen:
Die Extreme im menschlichen Genom
Wie @ user19099 sagte, ist das längste Gen im menschlichen Genom TTN, das für das Titin -Protein kodiert. TTN ist etwa 100 kbp lang. tRNA sind typischerweise sehr kurze Sequenzen (76-90 Nukleotide), aber bitte beachten Sie, dass diese Sequenzen niemals in Proteine übersetzt werden.
Buchempfehlung
Das Buch A Short Guide to the Human Genome von Scherer ist sehr gut geeignet, um ein Gefühl dafür zu vermitteln, wie das menschliche Genom aussieht.
Auslegung der Frage
Sie fragen zwei Dinge: 1. die Anzahl der Nukleinsäurebasen, die ein Gen ausmachen, 2. (implizit) wie die Größe von Genen definiert ist. Die erste Frage erscheint seltsam naiv, aber die zweite deutet darauf hin, dass es sich möglicherweise um ein Missverständnis handelt. Deshalb will ich dort ansetzen.
Wie sind die Grenzen eines Gens definiert?
Gene werden in Bezug auf ihren Informationsgehalt definiert – am offensichtlichsten, um Proteine zu spezifizieren, die einen Phänotyp verleihen können, aber auch um strukturelle und regulatorische RNA-Moleküle zu spezifizieren. Die Ausdehnung von Genen bzw. die Länge der von ihnen belegten DNA wird also durch ihren Informationsgehalt bestimmt.
Sind Gene in DNA-Boxen ähnlicher Größe enthalten?
Ihr erster Satz legt nahe, dass Sie denken, dass alle Gene eine feste Anzahl von Nukleinsäurebasen haben. Diese Vorstellung erscheint seltsam, da ihr Informationsgehalt auf der einfachsten Ebene (z. B. bei Bakterien) unterschiedlich groß ist mit der Größe ihrer Protein- oder RNA-Produkte. Vielleicht haben Sie jedoch die Vorstellung, dass das Genom in ähnlich große Regionen mit einem diskreten Anfang und Ende unterteilt ist, in denen die Informationen untergebracht sind (der Rest ist sozusagen Verpackung). Dies ist nicht der Fall.
Gene besetzen unterschiedliche Längen der DNA
Tatsächlich unterscheiden sich die Längen verschiedener Gene innerhalb einer Art und zwischen Arten. Bei einfachen Prokaryoten liegt dies hauptsächlich daran, dass sie Proteine (oder RNAs) unterschiedlicher Länge kodieren. Bei Eukaryoten (wo die Gene im Allgemeinen viel größer sind) wird dies aufgrund der unterschiedlichen Anzahl und Größe ihrer Introns, die (normalerweise) kein Protein codieren, noch komplizierter.
Wie werden die Endpunkte eines Gens in der Praxis bestimmt?
Eine einfache Antwort auf das Obige (entsprechend der Ebene Ihrer ursprünglichen Frage) wäre, dass sich Gene von den Promotorregionen, an denen die RNA-Polymerase zur Transkription bindet, bis zum Transkriptionsterminationspunkt erstrecken. In erster Näherung können sie daher in der Praxis durch die Bereiche der DNA definiert werden, die mRNA (oder Prä-mRNA) oder andere RNAs spezifizieren. Die moderne Methode dafür wäre RNAseq.
(In der Praxis ist die Situation komplizierter, da es Bereiche der DNA geben kann, die die Expression beeinflussen, aber nicht transkribiert werden. Aber darüber würde ich mir im Moment keine Gedanken machen.)
ShanZhengYang
ein weiterer 'Homo sapien'
Terdon
David
WYSIWYG
David
Remi.b
ShanZhengYang
AlexDeLarge
AlexDeLarge
ein weiterer 'Homo sapien'