Warum dachten Wissenschaftler, Menschen hätten 100.000 Gene (vor dem Human Genome Project)?

Eines der wichtigsten Ergebnisse des Human Genome Project (HGP) war, dass Menschen viel weniger separate Gene haben als bisher angenommen. Aus einem Artikel von 2004 über das HGP :

Francis S. Collins, Direktor des National Human Genome Research Institute (NHGRI), sagte: „Noch vor einem Jahrzehnt dachten die meisten Wissenschaftler, dass Menschen etwa 100.000 Gene hätten Schätzungen zufolge gab es etwa 30.000 bis 35.000 Gene, was viele überraschte. Diese neue Analyse reduziert diese Zahl noch weiter [auf 20.000-25.000] und liefert uns das bisher klarste Bild unseres Genoms."

Worauf basierte die alte Schätzung von 100.000? Ich nehme an, dass 1994 noch niemand das gesamte Proteom sequenziert hatte...

Wie Remi.b betont, kann die Schätzung von 100.000 Genen auf der Ein-Gen-ein-Enzym-Hypothese beruhen . Wenn das stimmt, haben die Leute vor dem Humangenomprojekt gedacht, dass es 100.000 verschiedene Enzymaktivitäten gibt? Wenn ja, welche Experimente/Daten wurden verwendet, um diese Zahl zu ermitteln?

Bedeutung und Menge nicht-kodierender DNA wurden unterschätzt.

Antworten (3)

Das menschliche Genom hat 3,2 Gbp (Giga = Milliarden von Basenpaaren). Wenn Sie davon ausgehen, dass es 100.000 Gene gibt, ergibt dies etwa 32 kbp (Kilo = Tausende Basenpaare) pro Gen.

Vor dem Humangenomprojekt, sagen wir vor 1990, isolierten die Menschen viele Gene aus menschlichem Gewebe. Sie können Google Scholar verwenden , um relevante Artikel zu finden. In der Schnellsuche können Sie sehen, dass der Bereich ziemlich groß ist:

  • "186.000 Basenpaare (bp) menschliches Faktor-VIII-Gen"
  • "menschliches TF-Gen erstreckt sich über 12,4 kbp"

Sie können also sehen, wie man die "durchschnittliche" Größe des Gens auf etwa 30 kbp schätzen könnte, wenn Sie noch nicht zu viele Gene gefunden haben. Während wir nach der Genomsequenzierung wissen, dass Gene 100-10000 bp lang sind. Ich denke, das Problem war, dass es noch nicht genügend Statistiken gab, um die "durchschnittliche Gengröße" angemessen zu beurteilen. Und wie sich herausstellt, ist die Verteilung sehr unkonventionell . Sie müssen viele Gene isolieren, um diese Verteilung zu rekonstruieren.

Durch das Jahr 1990 war das Phänomen des alternativen Spleißens bereits bekannt . Was vielleicht nicht ganz offensichtlich war, ist, wie viele Gene es gibt, wie groß sie wirklich sind und wie viele Gene sich überschneiden

Ich denke, es war eher der Gedanke, dass mehr DNA kodiert als in Wirklichkeit, aber das ist eine andere Möglichkeit.
Aus Pertea et Salzberg, Genome Biol, 2010: Eine Schätzung von 100.000 Genen erschien 1990 im gemeinsamen Bericht der National Institutes of Health (NIH) und des Energieministeriums (DOE) über das Human Genome Project; Dies basierte anscheinend auf einer sehr groben (und falschen) Berechnung, dass typische menschliche Gene 30.000 Basen lang sind und dass Gene das gesamte 3-Gigabase-Genom abdecken.
@tsttst danke! ich finde es auch interessant, dass wir heute leicht in die vergangene literatur blicken können (danke google Scholar :)

Über die Antwort auf diese Frage muss eigentlich nicht spekuliert werden, da Wissenschaftler ihre Schätzungen und Methoden veröffentlicht haben, wie es ihre Art ist. Das folgende Papier ist eine gute Übersicht:

Fields C, Adams MD, White O, Venter JC. 1994. Wie viele Gene im menschlichen Genom? Nature Genetics 7:345-346.

Unten sind einige gekürzte Auszüge aus dem Papier, aber ich empfehle, wenn möglich, das ganze Ding und die darin enthaltenen Referenzen zu lesen.

In Pilotprojekten zur Genomsequenzierung... fanden wir... im Durchschnitt etwa ein Gen in 23,4 kb... Hochgerechnet auf das gesamte Genom würden wir etwa 129.000 Gene vorhersagen; Die von uns sequenzierten Regionen wurden jedoch aufgrund ihres hohen GC-Gehalts und damit ihres Genreichtums ausgewählt. Höchstens die Hälfte des Genoms, in den GC-reichen ... Banden, weist wahrscheinlich eine hohe Gendichte auf; Wenn der Rest die Hälfte der von uns beobachteten Dichte hat, könnte das menschliche Genom 97.000 Gene enthalten. Aber die genarme Fraktion des Genoms hat wahrscheinlich viel weniger als die Hälfte der Dichte der genreichen Fraktion ... Wenn wir davon ausgehen, dass das Genom aus einer genreichen Hälfte mit [23,4 kb pro Gen] und einer genarmen besteht die Hälfte mit einem Zehntel dieser Dichte erhalten wir eine Schätzung von etwa 71.000 Genen ...

Schätzungen basierend auf der durchschnittlichen Gengröße wurden in einer anderen Antwort diskutiert . Die unterschiedlichen Schätzungen resultieren aus den unterschiedlichen getroffenen Annahmen: Zu diesem Zeitpunkt gab es viele Unbekannte. Den Zusammenhang zwischen GC-Gehalt und Gendichte können Sie in dieser Antwort nachlesen .

Schätzungen, die einen viel geringeren Gengehalt angeben, sind jedoch leicht zu finden ... Wagner und Kollegen stellen fest, dass nur etwa 12% eines typischen Säugetiergenoms ... transkribiert werden. Unter Verwendung einer durchschnittlichen Gengröße von 18 kb, erhalten aus einer Liste von charakterisierten Genen, schätzen sie eine Gesamtzahl von 20.000 Genen. Unter der Annahme, dass 2.500 Haushaltsgene (nach Schätzungen von Escherichia coli ) 18 % der Gesamtzahl der Gene ausmachen, erhielten dieselben Autoren eine noch geringere Zahl von etwa 14.000 menschlichen Genen.

Ich habe keinen Zugriff auf diese Referenz, daher ist es schwierig, tief in ihre Methodik einzutauchen, aber die Anzahl der exprimierten Gene hängt wirklich vom Zelltyp ab. Markzellen des Thymus beispielsweise exprimieren 85 % des codierenden Genoms . RNAseq hat auch vorgeschlagen, dass über 90 % des Genoms transkribiert werden, obwohl dies umstritten ist. Alles in allem war ihre erste Schätzung ziemlich genau richtig.

Die Messung der RNA-Reassoziationskinetik legt nahe, dass etwa 10.000 unterschiedliche Gene in einer typischen Säugetierzelle exprimiert werden, woraus Lewin eine Gesamtgenzahl von 20.000 bis 40.000 schätzt .

Dies ist eine C0t-Analyse mit RNA anstelle von DNA (genannt R0t). Hier können Sie mehr darüber lesen . Auch diese Schätzung hat sich als einigermaßen zutreffend erwiesen.

Mithilfe von Restriktionsanalysen mit dem methylierungsempfindlichen Enzym HpaII schätzten Antequerra und Bird, dass das menschliche Genom 45.000 CpG-Inseln enthält. Sie berichten auch, dass etwa 56 % der sequenzierten Gene CpG-Inseln enthalten, und schätzen daher eine Gesamtgenzahl von etwa 80.000 ... Diese Zahl kann jedoch eine Überschätzung sein, da selbst "vollständige" Gensequenzen selten umfangreiche 5' oder enthalten 3'-flankierende Sequenz und kann daher mit CpG-Inseln assoziiert sein.

Wir wissen jetzt, dass es etwa 30.000 CpG-Inseln im Genom gibt, von denen etwa 9.000 intragen sind , und dass 72 % der Gene CpG-Inseln haben . Dies würde ihre Schätzung auf 30.000 Gene revidieren.

Wir haben eine Sammlung von 3.483 nichtredundanten kodierenden Sequenzen als effektives Genom verwendet, mit dem eine Sammlung menschlicher ESTs verglichen werden kann ... Wenn [dieser] Satz vollständiger cDNA ... repräsentativ für menschliche Gene im Allgemeinen ist, der Bruchteil bekannter cDNAs die mit zufällig ausgewählten ESTs übereinstimmen, sollten gleich dem Anteil der neuen Sequenzen sein, die mit zufällig ausgewählten ESTs übereinstimmen. Unser menschliches EST-Sequenzierungsprojekt hat bisher ESTs identifiziert, die mit 1.877 der 3.483 einzigartigen kodierenden Regionen (54 %) übereinstimmen. Wir können daher schätzen, dass die neuen ESTs, die wir sequenziert haben, etwa 54 % der zuvor unbekannten menschlichen Gene darstellen ... Um abzuschätzen, wie viele Gene diese neuen ESTs identifizieren, haben wir ... die ESTs [geclustert]. Dieser Schritt reduzierte 65.297 ESTs auf 40.077 Cluster ... was darauf hinweist, dass der neuartige EST-Satz zu 40 % redundant war. Wir können dann eine erwartete Anzahl menschlicher Gene berechnen als: 40,77.700 Gene. Diese Berechnung ist eine Überschätzung, da das Clustering-Verfahren keine ESTs aus demselben Transkript identifizieren kann, es sei denn, sie überlappen sich. Wenn die wahre durchschnittliche Redundanz 50 % beträgt, sagen wir ungefähr 64.000 Gene voraus; Wenn die wahre durchschnittliche Redundanz 60 % beträgt, sagen wir 52.000 Gene voraus.

Obwohl sie alternatives Spleißen berücksichtigten, wurden Annahmen darüber getroffen, wie repräsentativ ihre Sammlung von codierenden Sequenzen war. Es scheint, dass eines der Probleme zu dieser Zeit darin bestand, dass viele der Überschätzungen, die mit unterschiedlichen Methoden vorgenommen wurden, mehr oder weniger miteinander übereinstimmen. Leider haben sich viele Annahmen nicht bewährt.

Ich weiß nicht viel über die Entwicklung der Gedanken zu diesem Thema, aber ich würde annehmen, dass die Schätzung von 100.000 Genen wahrscheinlich durch die Ein-Gen-Ein-Enzym/Protein-Idee verursacht wird

Die Ein-Gen-ein-Enzym-Hypothese ist die Idee, dass Gene durch die Produktion von Enzymen wirken, wobei jedes Gen für die Produktion eines einzelnen Enzyms verantwortlich ist, das wiederum einen einzelnen Schritt in einem Stoffwechselweg beeinflusst.

Die Vorstellung, dass Gene über das Protein, für das sie kodieren, Zellfunktionen beeinflussen, ist gar nicht so veraltet. Allerdings ist die Vorstellung, dass ein Gen für ein einzelnes einzigartiges Protein kodiert, etwas veraltet.

In Wirklichkeit kann ein einzelnes Gen über einen Mechanismus, der als alternatives Spleißen bezeichnet wird, für mehrere verschiedene Proteine ​​kodieren .

Alternatives Spleißen oder differenzielles Spleißen ist ein regulierter Prozess während der Genexpression, der zu einem einzigen Gen führt, das für mehrere Proteine ​​kodiert. In diesem Prozess können bestimmte Exons eines Gens in die endgültige, prozessierte Boten-RNA (mRNA), die von diesem Gen produziert wird, eingeschlossen oder davon ausgeschlossen werden. Folglich enthalten die von alternativ gespleißten mRNAs translatierten Proteine ​​Unterschiede in ihrer Aminosäuresequenz und häufig in ihren biologischen Funktionen [..]. Bemerkenswerterweise ermöglicht alternatives Spleißen dem menschlichen Genom, die Synthese von viel mehr Proteinen zu steuern, als von seinen 20.000 proteinkodierenden Genen zu erwarten wäre.

Die ursprüngliche Schätzung der Anzahl von Genen wurde daher wahrscheinlich mit der beobachteten Anzahl von Proteinen in Einklang gebracht, indem angenommen wurde, dass es eine Eins-zu-Eins-Funktion von Gen zu Protein gibt (wie bei der Ein-Gen-Ein-Protein-Hypothese).

Macht Sinn. Was ich jedoch wissen möchte, ist, woher diese bestimmte Nummer stammt. Welche Experimente oder Argumentationslinien führen quantitativ zu 100.000? Es liegt (im Grunde genommen) innerhalb einer Größenordnung der richtigen Antwort, daher gehe ich (vielleicht fälschlicherweise) davon aus, dass die Schätzung ursprünglich auf einigen soliden Zahlen von irgendwoher basierte. Gab es zum Beispiel einen Grund zu der Annahme, dass es 100.000 verschiedene Enzymaktivitäten gibt?
Die ursprüngliche Schätzung basierte wahrscheinlich auf der Anzahl der Proteine. Ich werde das in meiner Antwort klarstellen
Danke für das Update. Es fehlt aber noch ein Stück. Wie haben sie 100.000 als wahrscheinliche Anzahl verschiedener Proteine ​​festgelegt? Gab es in der Prä-Omics-Ära ein Experiment, das in der Lage war, das Vorhandensein von Tausenden (oder Zehntausenden) von Proteinen in einer einzigen Probe aufzulösen? Oder war es nur eine fundierte Vermutung auf der Grundlage jahrzehntelanger verschiedener Beobachtungen?
Ich weiß nicht ... :DI würde annehmen, dass jeder, der eine identifizierte Proteinsequenz findet, sie in eine gemeinsame Datenbank hochladen würde, und der Vergleich zwischen Proteinsequenzen (einige Ahnenäquivalente zu BLAST) ermöglichte es, die Anzahl der beim Menschen gefundenen Proteine ​​abzuschätzen.