Was sind die limitierenden Faktoren für die Genlänge und die Anzahl der Exons?

Ich habe kürzlich Genannotationen für Homo sapiens von Ensembl für einige bioinformatische Analysen heruntergeladen. Die überwiegende Mehrheit der Genannotationen hat 20 Exons oder weniger, obwohl einige bis zu 250 Exons haben. Ich weiß genug über Genannotationen, um diese Vorhersagen mit einem Körnchen Salz zu nehmen, aber es brachte mich zum Nachdenken ... was sind die biologisch relevanten Faktoren, die die Länge, Anzahl der Exons usw. eines Gens begrenzen könnten? Gibt es eine reale Möglichkeit für ein Gen, 50 Exons zu haben? 100 Exons? 250 Exons? Wo verläuft aus biologischer Sicht die Grenze und warum?

Wie haben Sie die Gene/Exon-Anmerkungen abgerufen? BioMart oder EnsEMBL-API?
Ich habe die komprimierten (gzip) GTF-Dateien direkt von der FTP-Site mit wget erhalten.
Die EnsEMBL Perl API ist eine coole Möglichkeit, genau die Daten abzurufen, die Sie benötigen - ensembl.org/info/docs/api/index.html

Antworten (3)

Diese Frage fällt fest in den Schoß der molekularen Evolution und der Beschränkungen, die den Genen durch die Kräfte der Mutation, Selektion, Drift und Rekombination auferlegt werden.

Es gibt zahlreiche Situationen, insbesondere die Genduplikation, die zu einem Gen führen können, das frei von den selektiven Einschränkungen seines Elternteils ist, von denen viele als Ergebnis stochastischer Prozesse so viele schädliche Mutationen ansammeln, dass sie nicht mehr funktionieren, z. B. Pseudogene . Einige können verändert und neu angeordnet werden, wobei Exons und Introns angesammelt werden, und wenn sie einen Fitnessvorteil für den Organismus ergeben, können sie zur Fixierung innerhalb einer Population verschoben werden.

Evolution ist ein populationsgenetischer Prozess, und es gibt viele Variablen, die das Ergebnis beeinflussen können, nicht zuletzt der Unterschied in der Populationsgröße. Die Genome größerer Populationen (z. B. von Bakterien) scheinen viel kleinere Genome und natürlich keine (zumindest nicht spleißosomalen) Introns zu haben, möglicherweise als Ergebnis einer erhöhten Fitness aufgrund der verkürzten Generationszeit eines Organismus mit mehr schlankes Genom. Es wäre eine gute Idee, The Origins of Genome Architecture von Michael Lynch zu lesen , da ich denke, dass er Ihre Fragen besser beantwortet als ich.

Viele der Gene, die Sie von EnsEMBL abrufen, werden natürlich experimentelle Beweise haben, die sie unterstützen. Die Gene, die in der Pipeline vorhergesagt werden, können mit weniger Vertrauen betrachtet werden, aber Sie können sich natürlich die Ausrichtungen mit eng verwandten Arten ansehen, um zu sehen, ob Sie glauben, dass die Introns/Exons tatsächlich lebensfähig sind. Ein Beispiel für ein Gen mit 79 Exons ist das Dystrophin (DMD)-Gen, das längste annotierte Gen mit 2.217.347 bp (siehe Roberts et al., 1993 und Nishio et al., 1994 ).

Ich bezweifle, dass es wirklich eine direkte Einschränkung gibt; der beste test wäre zu prüfen, ob die größe passt, dh ob ein 1kbp-gen mit 100 exons eher viel zu kurze introns haben müsste.

Die schnelle Suche nach NCBI-Genen zeigt sogar ein 317-Exon-Gen , obwohl all diese Grenzfälle einige unklare Geschwister von Titin zu sein scheinen, das für sich genommen einfach riesig ist.

Wenn man über die Qualitätskontrolle von Annotationen spricht, muss man über die molekularen Beschränkungen für die Größe eines Exons oder Introns nachdenken. Die (theoretische) Mindestlänge eines Exons müsste 1 bp betragen, obwohl man auch über die Bindung der molekularen Maschinerie nachdenken müsste, die an der Exon-Intron-Grenzerkennung und dem Spleißen benachbarter Exons beteiligt ist. Ich sollte denken, dass Exons mit weniger als 6 bp wahrscheinlich nicht als funktionsfähig angesehen würden? Siehe jbc.org/content/270/6/2411.full und mbe.oxfordjournals.org/content/23/12/2392.full

Stimme mbq zu - Titan ist das längste Gen, das ich kenne, und es hat weit über 100 Exons. Titin und Dystrophin sind genetisch gut charakterisiert und keine Vorhersagen. Titin ist mit 363 Exons der Champion-Exoner.

Die einzigen Beispiele wie dieses, die es den Genprädiktoren ermöglichen können, so lange weiterzulaufen, wie ich denke, da die Vorhersagen heuristisch getrimmt werden, um den bekannten Genstrukturen / -längen / -übergängen usw. zu ähneln.

Dystrophin ist das längste Gen, codiert aber nicht das längste Produkt, das natürlich Titin ist. 363 Exons sind eine höllische Zahl! Lol :)