Wie viele Gigabasen an DNA gibt es auf der Erde?

Das menschliche Genom umfasst etwa 770 MB, das Genom von C. elegans etwa 100 MB und das der Hefe S. cerevisiae etwa 12 MB. Verschiedene andere Genome wurden sequenziert: Wie viele GB an genomischer DNA haben wir jetzt?

Nehmen wir an, wir würden gerne eine Festplattenarche Noah bauen: Wie viel Platz würde es brauchen, um die Genome aller bekannten Arten auf der Erde darzustellen? Gibt es eine Möglichkeit, eine Schätzung abzugeben?

Ich interessiere mich auch für die gesamte Biodiversität: Wenn beispielsweise zwei Arten jeweils 1 GB Genome haben und die Hälfte ihrer DNA gemeinsam haben, würde dies als 1,5 GB zählen.

Ich denke, das ist eine unbeantwortbare Frage – es gibt eine Handvoll Arten, deren Genome sequenziert wurden, und viele Millionen auf der Erde, die völlig uncharakterisiert bleiben!
Das menschliche Genom hat jedoch Regionen mit hoher Repetition („niedriger Komplexität“), was bedeutet, dass es viel weiter komprimiert werden kann. Dies ist das eigentliche Maß für die „Größe“ der Biodiversität, da es den tatsächlichen Informationsgehalt misst. Und das Hinzufügen von Genomgrößen ist viel komplexer, als Sie glauben, Ihre 1,5-GB-Annäherung ist nicht sehr genau.
@KonradRudolph Sie müssen zwischen der reduktivsten Darstellung des Genoms und der vollständigsten wählen. Ich bin sicher, dass wir bis zum Ende des nächsten Jahrzehnts allein im menschlichen Genom Aufzeichnungen über Hunderte Millionen Varianten haben werden. Es gibt Vorschläge, von einem einzigen Referenzaufbau für das menschliche Genom wegzukommen. Nicht nur das Speichern der Sequenz selbst, sondern auch die Anmerkung, die beschreibt, wie die Varianten verwendet werden, sprengt bereits die Türen von 770 MB.
@shigeta Ich denke nicht, dass das hier relevant ist. Was Craig messen möchte, ist der kombinierte Informationsgehalt aller Genome, und der Informationsgehalt ist per Definition die Entropie, die wiederum per Definition der Größe der Daten in ihrer engsten (theoretisch) möglichen Darstellung entspricht.
Es hängt wirklich davon ab, was Sie zu verstehen versuchen. Umfassende Informationsmessungen sind praktisch für die Buchhaltung, aber angesichts der jüngsten Arbeiten, die zeigen, wie häufig horizontaler Gentransfer in Bakterien stattfindet, phys.org/news205389256.html , ist es wahrscheinlich wahr, dass Ihnen nie die Bakteriengenome ausgehen werden, die Sie der Sequenzdatenbank hinzufügen können wie @MarkSchltheiss darauf hinweist. Ich bin definitiv eher ein Pessimist, was die Nachvollziehbarkeit eines vollständigen Genomsequenzkatalogs betrifft.
Warum ist es interessanter, über Megabytes statt über Megabasen zu sprechen?
@nico Weil die Leute daran gewöhnt sind, in Bytes zu denken; Sie haben einen relativen Eindruck davon, wie viel "1 GB Informationsspeicher" aufnehmen kann.
@Armatus: OK ... obwohl es für mich viel sinnvoller ist, über Megabases zu sprechen. Ich persönlich habe keine Vorstellung davon, wie viel von einer DNA-Sequenz in 1 GB gespeichert werden kann ... auch weil es wirklich davon abhängt, wie Sie sie speichern.
@nico: Ich nehme an, wir konvertieren gerne Dinge in Einheiten, die wir mit bekannten Größen in Beziehung setzen können. ZB bin ich an Meter gewöhnt, also würde ich immer lieber Zoll und Meilen umrechnen. Ich kann mir nicht vorstellen, wie weit "5 Meilen" genau sind. Aber ich weiß, dass es ungefähr 1:1,5 ist, also ungefähr 7,5 km, was ungefähr 3/4 des Wegs zur Arbeit ist, den ich in ungefähr 25 Minuten fahre, und so weiter. :)
Wenn Sie alle genetischen Informationen auf der Erde darstellen möchten, müssen Sie alle Individuen erfassen , nicht alle Arten. Es gibt erhebliche Unterschiede zwischen zwei Menschen oder zwei Birken, sodass Sie nicht einfach eine einzige Probe pro Art nehmen und sagen können: „Verstanden!“.
Was ist mit Komprimierungsalgorithmen?

Antworten (2)

Wenn Sie nur eine Ordnung von Insekten, Coleoptera, nehmen, gibt es knapp 400.000 beschriebene Arten mit Schätzungen von insgesamt 850.000 bis 4.000.000 Arten in nur dieser Reihenfolge. Die Zahl der Primaten liegt unter 1.000. Wenn Ihre Annahme von beispielsweise 10 MB für alle anderen Primaten korrekt wäre, wenn Sie einfach die Schätzung am unteren Ende von 850.000 bei 10 MB pro 1000 hinzufügen, sind wir schnell bei 8.500 GB, was eine Fakultät außerhalb des GB-Bereichs zu sein scheint.

Wir haben also eine grobe Schätzung von nicht bakteriellen Pflanzen, Tieren usw. bei sagen wir 8.700.000.

Jason Gans fand in einer 1-Gramm-Bodenuntersuchung ungefähr 1.000.000 Bakterienarten.

SO ist es derzeit absolut unmöglich, die Gesamtzahl der Arten zu schätzen, geschweige denn das Genom .

Selbst für etwas so „Gewöhnliches“ wie eine Giraffe gibt es bis zu 9 Unterarten mit Genomunterschieden innerhalb jeder Unterart.

Sobald wir sie alle beschrieben haben, können wir dann an der Genomsequenz für jeden arbeiten und Ihnen einige Antworten geben!

Jüngste genetische Arbeiten an der Giraffe weisen nun auf mehrere Arten hin, die einst als Unterarten galten, von denen einige heute aufgrund der geringen Populationszahlen in einigen als vom Aussterben bedroht angesehen werden.

Laut diesem Papier gibt es ~ 5.3 × 10 34 Basenpaare der DNA auf der Erde. Ein Basenpaar enthält Informationen im Wert von ungefähr 2 Bit (4 Möglichkeiten). Das wäre also ~ 8.48 × 10 35 Byte an Informationen.

oder mehr als die Gesamtinformation aller digitalen und analogen technischen Speichermedien auf der Erde zusammengenommen.

Ich habe mich hauptsächlich über deinen gesamten Informationsgehalt in aller DNA auf der Erde gewundert. Diese Zahl ist wahrscheinlich viel höher als der gesamte Informationsgehalt, da viele dieser Stränge Duplikate sein werden, aber ich habe Ihre Antwort positiv bewertet, da dies immer noch eine gute Obergrenze und möglicherweise einige gute Startpunkte für andere Berechnungen bietet. Danke!
Doppelte Informationen sind immer noch Informationen, die meisten Informationen in Büchern oder auf digitalen Medien sind ebenfalls doppelt vorhanden. Jede Schätzung, mit der Sie sie vergleichen, enthält viele doppelte Informationen. Außerdem listet das Originalpapier die Zahl in Megabasen auf, ich habe sie der Einfachheit halber umgerechnet.