Wenn wir das Genom jeder Art sequenzieren würden, würden dann alle Phylogenien übereinstimmen?

Der Baum des Lebens steht noch zur Debatte. Der größte Teil dieser Debatte scheint auf einen Mangel an genomischen Informationen zurückzuführen zu sein, aber dieser Mangel nimmt mit Fortschritten in der Technologie und der Sequenzierungsleistung rapide ab.

Würden wir hypothetisch alle phylogenetischen Debatten lösen, wenn wir das Genom jeder Art kennen würden? Wenn nein, was stünde noch zur Debatte?

Antworten (4)

Horizontaler Gentransfer

Erwarte keinen Baum! Es findet ein horizontaler Gentransfer statt und daher würden wir am Ende ein Netzwerk haben, keinen Baum.

Genbäume

Unterschiedliche DNA-Sequenzen haben unterschiedliche Evolutionsgeschichten. Siehe insbesondere die Frage der unvollständigen Abstammungssortierung. Das bedeutet, dass man für eine gegebene DNA-Sequenz einen Baum berechnen kann, der nicht mit dem Baum einer anderen Sequenz übereinstimmen muss. Erwarten Sie also keinen perfekten Artenbaum, bei dem alle Sequenzen übereinstimmen.

Beachten Sie, dass die beiden Punkte „Horizontaler Gentransfer“ und „Genbäume“ eng miteinander verwandt sind. So sehr, dass sie zusammen passen könnten.

Nicht alle Personen wurden entdeckt

Wenn of every organismSie mit "von jedem Organismus, dem wir begegnen" gemeint haben, dann haben wir immer noch das Problem von Organismen, denen wir noch nie begegnet sind. Wenn Sie "absolut jedes existierende Individuum" gemeint haben, dann ist dies kein Problem. Es spielt auch eine Rolle, ob Sie jedes Individuum jeder Art oder nur ein Individuum pro Art meinen.

Außerdem ist es etwas unklar, ob wir in Ihrer Hypothese alle toten Individuen sequenzieren können! Ausgestorbene Linien würden immer noch nicht aufgelöst, wenn wir sie nicht sequenzieren können.

Massive Mutationsereignisse

Es ist möglich, dass ein sehr großes Mutationsereignis uns daran hindern könnte, die genaue Beziehung zwischen Individuen zu erkennen. Aber das würde nur auf einer extrem feinen Phylogenie (Intra-Spezies-Ebene) stören.

Methodik

Wenn wir wirklich alle Personen befragen, spielt das Detail der Methodik möglicherweise keine große Rolle. Es muss noch entschieden werden, ob wir AATCnäher an AA.Coder an AGTC(wobei .eine Streichung angibt) denken wollen. Auch dies wird wahrscheinlich nur auf einer sehr feinen Skala (Intra-Spezies-Ebene) von Bedeutung sein.

Rechenleistung

Wenn wir natürlich jedes auf der Erde existierende Nukleotid sequenzieren würden, hätten wir niemals die Rechenleistung, um die Daten überhaupt zu speichern. Nicht über die tatsächliche Verarbeitung sprechen. Wir hätten weder die Rechenleistung, um die Sequenzierung zu verarbeiten (noch die notwendige Menge an Produkten, um die Sequenzierung zu ermöglichen).

Wenn Sie nur ein Individuum pro Art vollständig sequenzieren wollten (und dann wieder die Willkür des Artenkonzepts die Dinge verkomplizieren wird), dann haben wir möglicherweise die Rechenleistung (siehe Kommentar von @KonradRudolf).


Der Artenbegriff kann oft irreführend sein. Vielleicht möchten Sie den Beitrag Wie könnten sich Menschen mit Neandertalern gekreuzt haben, wenn wir eine andere Spezies sind? für eine Diskussion über den Artenbegriff.

Sie könnten die Daten komprimieren. Vieles ist ähnlich; Ich bin mir sicher, dass jemand einen Datenkomprimierungsalgorithmus entwickeln würde, der besser funktioniert als die bestehenden für Gruppen von Genomen.
„Wir hätten niemals die Rechenleistung, um die Daten überhaupt zu speichern.“ — Ich bin mir nicht sicher, wie Sie dorthin gekommen sind. Selbst unkomprimierte genomische Daten sind nicht so groß. Das menschliche (Haplotyp-)Genom ist magere 3 GiB groß. Unter der Annahme, dass dies repräsentativ ist (es ist eigentlich eher am oberen Ende!) und unter der Annahme von Schätzungen von 8,7 Millionen unterschiedlichen Arten, würde dies ~26 PiB-Daten ergeben. Das sind Erdnüsse . Moderne Sequenzierungsbemühungen produzieren jeden Monat routinemäßig so viele Daten !
@KonradRudolph Er sprach nicht nur davon, irgendeine (wie auch immer definierte) Art zu sequenzieren, sondern jedes einzelne Genom - was im Grunde jede Lebensform auf der Erde ist. Also mindestens ein paar Milliarden mal das, was Sie berechnet haben.
@Nicolai Fairer Punkt, aber angesichts des Textes der eigentlichen Frage ist dies wahrscheinlich nur eine Ungenauigkeit im Titel (OP bedeutet „Organismus“ = „Art“ und nicht „Organismus“ = „Individuum“).
@KonradRudolph Ja, deshalb sagte ich if we sample every nucleotide that exist on earth. Ich habe diesen Teil bearbeitet, um es noch klarer zu machen.
@Remi.b Ich denke, "Probe" ist dann der falsche Begriff, weil es bedeutet, dass Sie sich nicht jeden einzeln ansehen.
Ich bin mir nicht sicher, ob ich verstehe, warum Probe kein guter Begriff ist. Ich habe "Probe" durch "Sequenz" ersetzt. Wenn Sie eine bessere Alternative haben, können Sie die Antwort gerne bearbeiten. Vielen Dank
Angenommen, er meinte jede Art, ist es in Reichweite einer DVD-Jukebox.
@KonradRudolph Produzieren wir wirklich ~26PB pro Monat? Vielleicht möchten Sie eine Antwort auf die Frage Wie viele Open-Access-Daten gibt es in der Genetik?
@Remi.b Nicht "wir": Je mehrere einzelne Institute/Unternehmen . Danke für den Link, ich werde versuchen, einige offizielle Statistiken zu finden. Das meiste davon ist leider weder Open Access noch in irgendeiner Weise öffentlich.
@Nicolai Aufgrund der starken Redundanz in vielen Artengenomen (insbesondere in all diesen konservierten Regionen) ist ein "Milliardenfaches" wirklich nicht so viel. Sie könnten ganz einfach eine große Anzahl von Genomen in einem Radix-Baum oder einer anderen hochkompakten Datenstruktur speichern. SNPs und dergleichen müssen nicht explizit für jedes einzelne Lebewesen angegeben werden.

Eine schnelle (aber nicht ganz glatte) Antwort (nachdem ich auf diesem Gebiet gearbeitet habe): Angesichts identischer DNA-Sequenzen von bekannten Arten mit wahrscheinlich engen Beziehungen - mit anderen Worten, Vergleiche von Käfern mit anderen Käfern und nicht mit Schlangen oder Bananen - respektierte Forscher kommen fast nie zu denselben phylogenetischen Stammbäumen, insbesondere bei sehr großen DNA-Sequenzen, selbst wenn sie mit genau denselben DNA-Proben arbeiten .

Es gibt verschiedene Gründe.

  1. Forscher haben unterschiedliche Meinungen über das Gewicht, um die Wahrscheinlichkeit verschiedener möglicher Mutationen anzugeben, die zu den Unterschieden zwischen den DNA-Sequenzen geführt haben könnten. Dadurch ergeben sich automatisch unterschiedliche Stammbäume. Dies führt zu:

  2. Es gibt unzählige Wege, die zu den Unterschieden in den DNA-Sequenzen führen könnten. Dies bedeutet, dass es keine Möglichkeit gibt, den tatsächlichen Weg zu kennen, der tatsächlich zu einem bestimmten Unterschied geführt hat, geschweige denn zu allen, die auch nur zwei verschiedene Arten ausmachen. Das bedeutet dann, dass es unzählige verschiedene phylogenetische Bäume gibt, die die mögliche Abstammung von sogar zwei relativ ähnlichen Arten beschreiben. Computergestützte Baumerzeugungs- und Sortieralgorithmen werden verwendet, um die großen Zahlen zu verstehen, die beteiligt sind, aber sie können nicht alle möglichen Bäume auflisten, da dies nicht möglich ist. Die Liste ist unendlich groß. Stattdessen hören sie auf, Bäume zu erzeugen, sobald sie eine voreingestellte Wahrscheinlichkeitsgrenze (vom Forscher basierend auf Heuristik) erreicht haben, und sortieren dann die, die sie haben. Es ist nicht so zufällig, wie es sich anhört, aber in jedem phylogenetischen Baum steckt ein gewisses Maß an Vermutungen. Dies könnte nur dadurch gemildert werden, dass wir die DNA-Sequenzen jedes einzelnen Vorfahren jedes einzelnen Organismus kennen, sodass wir sehen könnten, wie sich die DNA an jedem Basenpaar in jeder Sequenz in jeder Generation verändert. Es ist ein bisschen so, als würde man nach einer Zeitreise fragen, aber die Mathematik ist schwieriger.

  3. Es herrscht von Art zu Art grundsätzliche Uneinigkeit darüber, welche Veränderungen in der DNA für unterschiedliche Arten verantwortlich sind und welche lediglich Variationen innerhalb einer einzigen Art darstellen. In Wirklichkeit gibt es ungefähr eine Mutation für jede Zellteilung (siehe diesen Artikel über Mutationsraten beim Menschen für einen Blick auf das Ausmaß des Problems 1 ) bei den meisten bekannten Arten, von denen die meisten bedeutungslos sind oder spontan über Zellen entfernt werden oder ( oft, im Fall von Keimzellen) zum Absterben des Organismus. Dies ist ein echtes Problem, das ausführlich von systematischen Taxonomen diskutiert wird.

  4. Da die DNA verschiedener Arten tatsächlich unterschiedlich ist, ist es nicht möglich, eine Eins-zu-Eins-Übereinstimmung der DNA-Sequenzen zwischen zwei Arten zu erreichen. Die Forscher machen eine bestmögliche Vermutung, basierend auf dem, was sie für am wahrscheinlichsten halten (und wird schwieriger, je mehr Arten verwendet werden).

  5. Statistische Methoden (die aufgrund der unendlichen Größe der Datensätze auch bei (relativ) geringen DNA-Mengen und Artenzahlen erforderlich sind) sagen nur die Wahrscheinlichkeit eines bestimmten Baums aus. Sie können die tatsächliche Phylogenie nicht vorhersagen . Dies kann nur bekannt sein, wenn alle (oder zumindest die meisten) Vorfahren der DNA jedes der repräsentativen Organismen auf die Mutationen untersucht werden können, die zur Speziation geführt haben.

Kurz gesagt (weil diese Antwort wirklich keine war, trotz meiner ursprünglichen Aussage), würden DNA-Sequenzen aller vorhandenen Arten nicht ausreichen, um die Phylogenie aufzuklären. DNA-Sequenzen jedes noch existierenden Einzelorganismus würden nicht ausreichen. Nur die Kenntnis der DNA-Sequenzen aller Organismen, die jemals gelebt haben, würde ausreichen, um die Phylogenese vollständig aufzuklären.

Nein, aber es würde helfen. Lassen Sie uns jedoch zunächst über Einschränkungen sprechen. Die Einschränkung, von der Sie sprechen, verschwindet nicht schnell. Die Barcode-Initiative (der Versuch, ein kleines Fragment der mt-DNA von jedem Organismus auf der Erde zu sequenzieren) läuft jetzt seit fast 20 Jahren und ist nicht einmal annähernd in der Lage, alle Arten auf der Erde abzudecken. Viele Arten wurden nur einmal angetroffen und seit ihrer Beschreibung nicht mehr gesehen. Die meisten Arten bleiben unbeschrieben. Dann ist da noch das Problem der Rechenleistung. Es wäre nicht möglich, die Daten für 10 Millionen Arten (eine grobe Schätzung für die Anzahl der Arten auf der Erde) oder sogar 1,8 Millionen (aktuelle Zahl) zu analysieren. Außerdem sind Phylogenetiker ein streitsüchtiger Haufen. Es ist wahrscheinlich, dass es Debatten über die Methodik geben würde. Auch bei der Verarbeitung der Daten würden Fehler auftreten.

Wie Sie bereits sagten, war Ihre Frage jedoch hypothetisch. Eine sorgfältige, fehlerfreie Analyse unter der Annahme einer vollständigen Abdeckung und perfekter Modelle sowie der Annahme, dass wir über die Rechenleistung dafür verfügen, würde den größten Teil der Debatte lösen. Es würde immer noch keine Arten mit retikulärer Evolution oder harten Polytomien (Gruppen, die sich gleichzeitig in mehr als zwei Linien aufspalten) auflösen. Dafür bräuchte man mehr als ein Individuum, um eine Art zu repräsentieren, und selbst mit sagen wir 10 pro Art wäre es schwierig.

Außerdem ist die überwiegende Mehrheit der Arten ausgestorben und hat daher keine DNA mehr zum Proben.
"[T]hus" scheint etwas voreilig zu sein. DNA kann in allen möglichen Medien, zB Bernstein, konserviert und daraus extrahiert werden. Dem Bernstein ist es egal, ob die darin eingebettete Art ausgestorben ist oder nicht.

Diese Frage ähnelt der Frage: "Wenn wir jedes Fossil finden würden, würden wir alles über das Leben in der Vergangenheit wissen?" oder "Wenn wir jedes existierende alte Manuskript finden würden, würden wir dann alles über Geschichte wissen?". Die Antwort auf beide ist „Nein“, denn Fossilien und Manuskripte sind von Natur aus unvollständige Aufzeichnungen. Nicht alle Organismen versteinern; nicht alles wird aufgeschrieben; nicht alle Fossilien oder Manuskripte haben bis heute überlebt, und diejenigen, die es taten, erlitten verschiedene Grade des Verfalls; Je länger es her ist, desto mehr sind sie verfallen.

Dasselbe gilt für das phylogenetische Signal, auf das man von Genen schließen kann. Der Grund, warum wir überhaupt aus Genen auf Abstammung schließen können, ist, dass jeder seine Gene von seinen Eltern erhält und diese Gene in jeder Generation leicht modifiziert werden. Das bedeutet, dass Geschwister sehr ähnliche Gene haben, Cousins ​​​​etwas weniger ähnliche Gene und so weiter, bis Sie den Stammbaum aller Lebewesen haben.

Außer, dass mehrere Faktoren dies durcheinander bringen. Hier sind ein paar:

  • Nicht jeder bekommt seine Gene von seinen Eltern. Tiere tun das meistens, aber Bakterien tauschen Gene so aus, dass jedes Gen seinen eigenen Stammbaum haben kann, unabhängig von dem der Bakterien, in denen es sich befindet. Dies ist äußerst relevant für den Ursprung des Lebens, insbesondere weil Bakterien und Archaeen beteiligt waren.

  • Die Einstufung „sehr ähnlich, weniger ähnlich usw.“ funktioniert, wenn wir unendlich große Gene haben, die unendlich viele Informationen enthalten. Wenn wir das nicht tun, dann bekommen Sie irgendwann zwei Individuen, deren DNA-Basen sich voneinander unterscheiden, und von diesem Punkt an können sie nicht mehrunterschiedlicher, wie entfernt sie verwandt sind. Außerdem erhalten Sie bei endlicher DNA Mutationen über Mutationen - Sie haben möglicherweise zwei entfernt verwandte Linien, die zufällig dieselbe Mutation erhalten, oder eine alte Mutation wird rückgängig gemacht, oder eine neue Mutation tritt auf einer alten auf, wie es aussieht nur eine Mutation. All dies kann das "Signal" der Verwandtschaft verwischen, und das ist der Grund, warum phylogenetische Bäume mit statistischen Methoden und so vielen DNA-Informationen wie möglich berechnet werden. Wir (die meisten von uns) haben riesige Genome, weshalb wir phylogenetische Bäume so gut machen können wie wir, aber es gibt Genome, die klein genug sind, dass sie seit Beginn des Lebens vollständig gemischt wurden, und es ist schwieriger, phylogenetische Bäume aufzubauen Bäume dort. Am anderen Ende des Spektrums,

  • Die Theorie beruht auch darauf, dass die Mutationen zufällig sind; Jedes Individuum unterscheidet sich in einem vorhersehbaren Ausmaß von seinem Elternteil, da kein Faktor einige Mutationen wahrscheinlicher macht als andere. Dies ist bei vielen Teilen des Genoms der Fall, und das macht sie ziemlich gut für die Phylogenetik, aber viele andere Teile werden dafür oder dagegen ausgewählt. Das bedeutet, dass einige Mutationen eher bestehen bleiben, weil sie irgendwann von Vorteil sind, und andere eher schnell ausgemerzt werden, weil sie schädlich sind. Deshalb werden selbst bei Organismen mit kleinen Genomen, die seit Beginn des Lebens vollständig gemischt werden könnten, diese nicht wirklich vollständig gemischt: Die lebensnotwendigen Teile des Genoms bleiben gleich. Dies kann gut für die Untersuchung der tiefen Phylogenie sein, da sich diese Sequenzen viel langsamer ändern. Es kann auch schlimm sein, denn jetzt ändern sich nicht nur familiäre Beziehungen, sondern auch die Fitness, und man kann nicht mehr sicher sein, dass zwei Organismen aufgrund ihrer Verwandtschaft ähnliche oder unterschiedliche DNA haben oder weil sie sich an dieselben oder unterschiedliche Funktionen angepasst haben. Dies hängt von der fraglichen DNA ab, ob die Funktion von vielen verschiedenen DNA-Konfigurationen oder nur einer ausgeführt werden kann, aber am Ende des Tages ist es ein weiterer Faktor, der das Verwandtschaftssignal durcheinander bringt. Und während die langsamere Änderungsrate in konservierten Sequenzen es ermöglicht, sehr tiefe Phylogenien zu trennen, ist dies aus dem gleichen Grund nicht bei einer sehr hohen Auflösung möglich, da es weniger Unterschiede gibt, mit denen man arbeiten kann. die Fitness wirkt sich auch darauf aus, und Sie können nicht mehr sicher sein, dass zwei Organismen aufgrund ihrer Verwandtschaft ähnliche oder unterschiedliche DNA haben oder weil sie sich an dieselben oder unterschiedliche Funktionen angepasst haben. Dies hängt von der fraglichen DNA ab, ob die Funktion von vielen verschiedenen DNA-Konfigurationen oder nur einer ausgeführt werden kann, aber am Ende des Tages ist es ein weiterer Faktor, der das Verwandtschaftssignal durcheinander bringt. Und während die langsamere Änderungsrate in konservierten Sequenzen es ermöglicht, sehr tiefe Phylogenien zu trennen, ist dies aus dem gleichen Grund nicht bei einer sehr hohen Auflösung möglich, da es weniger Unterschiede gibt, mit denen man arbeiten kann. die Fitness wirkt sich auch darauf aus, und Sie können nicht mehr sicher sein, dass zwei Organismen aufgrund ihrer Verwandtschaft ähnliche oder unterschiedliche DNA haben oder weil sie sich an dieselben oder unterschiedliche Funktionen angepasst haben. Dies hängt von der fraglichen DNA ab, ob die Funktion von vielen verschiedenen DNA-Konfigurationen oder nur einer ausgeführt werden kann, aber am Ende des Tages ist es ein weiterer Faktor, der das Verwandtschaftssignal durcheinander bringt. Und während die langsamere Änderungsrate in konservierten Sequenzen es ermöglicht, sehr tiefe Phylogenien zu trennen, ist dies aus dem gleichen Grund nicht bei einer sehr hohen Auflösung möglich, da es weniger Unterschiede gibt, mit denen man arbeiten kann. ob die Funktion von vielen verschiedenen DNA-Konfigurationen oder nur einer ausgeführt werden kann, aber am Ende des Tages ist es ein weiterer Faktor, der das Verwandtschaftssignal durcheinander bringt. Und während die langsamere Änderungsrate in konservierten Sequenzen es ermöglicht, sehr tiefe Phylogenien zu trennen, ist dies aus dem gleichen Grund nicht bei einer sehr hohen Auflösung möglich, da es weniger Unterschiede gibt, mit denen man arbeiten kann. ob die Funktion von vielen verschiedenen DNA-Konfigurationen oder nur einer ausgeführt werden kann, aber am Ende des Tages ist es ein weiterer Faktor, der das Verwandtschaftssignal durcheinander bringt. Und während die langsamere Änderungsrate in konservierten Sequenzen es ermöglicht, sehr tiefe Phylogenien zu trennen, ist dies aus dem gleichen Grund nicht bei einer sehr hohen Auflösung möglich, da es weniger Unterschiede gibt, mit denen man arbeiten kann.

Genau wie Fossilien und Manuskripte sind genomische Informationen also im Wesentlichen ein unvollkommenes Signal für die Erstellung von Stammbäumen, und es verfällt – je länger es her ist, desto mehr Zeit war für die verschiedenen Faktoren, die es überhaupt erst unvollkommen machen, um ihre Magie zu entfalten . Um Ihre Frage zu beantworten, würde es sehr helfen, die genomischen Informationen für alle Arten oder Organismen zu haben, um den Baum des Lebens zu lösen, und könnte sogar alle aktuellen Debatten darüber lösen. Aber vielleicht auch nicht. Schwer zu wissen, ohne die Debatten tatsächlich zu lösen. Und selbst wenn, gäbe es wahrscheinlich noch offene Fragen; Die allgemeinen Umrisse des Bildes wären klar, aber es gäbe immer noch alle möglichen Details, die nicht ausgefüllt wären.