Enthält die DNA eines Spermiums 37,5 MB an Informationen?

Spermienfaktoid [ Quelle ]

In einer Episode der BBC-Show QI – Quite Interesting (Serie J, Episode 1) sagte Stephen Fry :

Was glauben Sie, wie viele Informationen in der DNA eines kleinen Spermiums stecken...?

37,5 MB...

...eine normale männliche Ejakulation, falls es so etwas gibt, entspricht 15.875 GB. Das sind etwa 7500 Laptops an Informationen...


Die Twitter-Seite zeigt es zusammengefasst:

Ein Spermium hat 37,5 MB DNA-Informationen.
Bei einer Ejakulation werden 15.875 GB an Daten übertragen, was dem Speicherplatz von 7.500 Laptops entspricht.


(bei "200 Millionen Spermien pro Ejakulation" käme man eigentlich auf 7150 TB;
mich interessiert aber eher woher die 37,5 MB Zahl kommt)


Meine Frage:

  • Enthält die DNA eines Spermiums 37,5 MB an Informationen?
Ich habe mich sehr geärgert, als dies ausgestrahlt wurde, da die Behauptung von 7500 TB eindeutig falsch ist. Jedes Spermium ist ungefähr eine zufällige Mischung von 1/2 der DNA des Elternteils und daher werden 200 Millionen Auswahlen von 1/2 der elterlichen DNA die enthaltenen Informationen nicht mit 200 Millionen multiplizieren! Die 37,5 MB klingen nach einer vernünftigen Größenordnung, genaue Werte hängen davon ab, wie Sie die Informationen usw. codieren. Ich würde die Zahlen selbst knacken, aber wäre das als Antwort akzeptabel?
Wikipedia scheint eine Zahl zwischen 2 MB (haploider Unterschied zur Standardreferenz) und 700-800 MB (vollständiges haploides Genom) zu beanspruchen. Ich bin mir nicht sicher, welche Annäherungen QI verwendet hat, um 37,5 MB zu erhalten.
Wenn es 2 Bytes pro Basenpaar sind und es 3,2 Milliarden Basenpaare gibt, dann wären es 763 MB. Ich frage mich, woher "37,5" kommt.
@Olicer_C Die Entropie in DNA beträgt weniger als 2 Bit pro Basenpaar, ~ 1,75, aber das senkt sie nur auf 625 MB-667 MB. Wenn Sie nur die Unterschiede zur menschlichen Referenzsequenz berücksichtigen, können Sie auf 2 MB herunterkommen. 37,5 MB scheinen eine ziemlich seltsame Größe zu sein.
"Äquivalent von 15.875 GB" ist insgesamt BS, eine exakte Kopie derselben Informationen ist keine zusätzliche Information. Es ist, als würde man sagen, dass das Kopieren von „lorem ipsum“ einige tausend Male „dem Inhalt der Library of Congress entspricht“.
Sie hängt von der verwendeten Kodierung und dem Inhalt der DNA ab. Ich kann eine Codierung erstellen, bei der, wenn das erste Bit 1 ist, die DNA meine DNA ist, wenn es 0 ist, folgt die DNA, und in diesem Fall wäre es 1 Bit für meine DNA und mehr für die anderen. Die Antwort lautet also: Es kommt darauf an
@coleopterist Dr.Frank Scali hat die 763-MB-Zahl so heruntergeteilt, dass sie nur proteinkodierende DNA enthält (was ~ 1% des Genoms ausmacht). Ich denke nicht, dass dies ein guter Ansatz für die Informationsübertragung ist, da der Rest des Genoms enthält funktionale regulatorische Elemente (siehe das ENCODE-Projekt genome.ucsc.edu/ENCODE ), von denen geschätzt wird, dass 80 % funktionsfähig sind. 100% der Basen sind jedoch als Information lesbar. Er hat auch naiv mit MB/Sperma multipliziert, um Gesamtdaten zu erhalten, was falsch ist, da die Spermien alle die gleiche elterliche Zell-DNA teilen
Dies hängt wirklich vom Codierungsschema ab. Wenn Sie ASCII zum Codieren verwenden, sprechen Sie von 8 Bits für das Basispaar, was die Zahlen stark erhöht. Viele genomische Daten werden als ASCII herumgereicht, daher ist es nicht unangemessen, sie auch für die Berechnung zu verwenden.
Ich möchte nur darauf hinweisen, dass, obwohl sich viele Daten in der Berechnung wiederholen, sie physikalisch gesehen immer noch weitergegeben werden (Sie können so etwas wie Spermien-DNA-Informationen nicht komprimieren).
@RobZ: Hängt davon ab, ob sie wirklich über Informationen oder Daten sprechen . In der Codierungstheorie wird der Informationsgehalt durch ein verlustfreies Codierungsschema nicht verändert. Es bestimmt nur, wie viele Daten Sie benötigen, um es darzustellen. 200 Millionen Mal die gleichen Nachrichten ergeben natürlich eine 200 Millionen Mal größere Datenmenge, aber keine zusätzlichen Informationen mehr.
Natürlich ist es absolut naiv, aus der Länge der DNA einer Zelle eine Informationsmenge zu errechnen. Die in der DNA gespeicherten Informationen hängen nicht nur von ihrer Sequenz ab, sondern davon, WO die Sequenz liegt, wie die DNA räumlich gefaltet ist, ob sie modifiziert (z. B. methyliert) ist, welche Transkriptionsfaktoren und welche Proteine ​​in dieser spezifischen Zelle vorhanden sind und bald. Diese Art von DNA/Computer-Vergleichen – obwohl sehr verbreitet – sind nur (meiner Meinung nach sinnlose) Stilübungen.
Ich habe gehört, dass die Spermienzahl von Menschen im Vergleich zu anderen Tieren schlecht ist.
@Vartec - Eigentlich ist es so, als würde man sagen, dass man Lorum Ipsum oft genug kopieren könnte, um einen Datenspeicher mit der gleichen Menge an Informationen zu füllen, die im LOC enthalten sind. Es besteht kein Anspruch darauf, dass die übertragenen Daten überhaupt nicht redundant sind.
@Chad: Die zitierte Frage lautet "Wie viele Informationen ", mehr Kopien sind nicht dasselbe wie mehr Informationen.
@Vartec - die Frage bezieht sich nur auf ein Sperma und ein ganzes Ejakulat ... aber ich würde immer noch sagen, dass Sie nicht wissen können, was es ist, bis Sie es lesen, und Sie können jedes lesen, obwohl es meistens immer wieder dieselben Informationen sind eine, so dass jede tatsächlich eine einzigartige Kopie von Informationen ist. Wenn Sie dieselbe 1-MB-Datei 1024 Mal herunterladen, sind es immer noch 1 g an Daten, die heruntergeladen wurden. Wenn es ein Hinweis auf die Informationen wäre, dann würde ich zustimmen.
Den Transport eines Datenträgers würde ich nicht als Datenübermittlung qualifizieren...
Ich kann nicht einmal verstehen? Wer hat diese 37 MB aus der Luft gezogen und meinte, ja, das ist das Äquivalent ... blaahhhh, wie konvertiert man sie überhaupt in Comouter-Daten, lol??
Ich denke, die eigentliche Frage hier ist: Warum können wir DNA nicht verwenden, um Informationen zu kodieren? Mit anderen Worten, speichern Sie 37 MB unserer eigenen Daten, indem Sie ein künstliches Sperma erstellen oder ein vorhandenes modifizieren. Wenn wir vorhandene modifizieren, sollte der, äh, große Vorrat, äh, "Festplattenlaufwerke" viel billiger machen und das Wortspiel "Schwanzlaufwerk" endlich wahr machen :)

Antworten (2)

Ich bin mir nicht sicher, woher diese Zahlen kommen, und die Antwort hängt davon ab, wie Sie die Genomdaten codieren und ob Sie alle Redundanzen (unnötige, sich wiederholende Daten) als "Informationen" definieren.

Zunächst einmal enthält das menschliche Genom ungefähr 3,1 (Männer) bis 3,2 (Frauen) Milliarden Basenpaare. Da das X-Chromosom dreimal länger ist als das Y-Chromosom, haben Frauen eine höhere Gesamtgenomlänge als Männer.

Quelle: „Human Genome Assembly Information“ des „Genome Reference Consortium“

Ein Basenpaar besteht aus zwei der vier Nukleobasen Adenin, Cytosin, Guanin und Thymin, aber nur die vier Kombinationen AT, TA, CG und GC sind möglich, da die A- und T-Nukleobasen nicht an die C- und G-Nukleobasen binden und und umgekehrt. Diese vier Kombinationen können mit zwei Bit kodiert werden, sodass 6,2-6,4 Gigabit oder etwa 750 Megabyte benötigt werden, um eine exakte Kopie des Genoms zu speichern.

Selbst wenn man 750 Megabyte braucht, um die "Rohdaten" eines menschlichen Genoms zu speichern, wird es zumindest einem Informatiker schwerfallen, all dies als "Information" zu definieren. Wenn Sie zB 74 Minuten völlige Stille auf eine CD aufnehmen, enthält die Scheibe zwar auch rund 750 Megabyte an „Daten“, aber eigentlich keine „Informationen“. Große Teile des menschlichen Genoms sind repetitiv, nur ein sehr kleiner Teil unterscheidet sich tatsächlich zwischen verschiedenen Individuen und aufgrund des Unterschieds kommen mehrere Basenpaarsequenzen nur in wenigen wohldefinierten Varianten vor.

Es gibt tatsächlich einige Forschungsarbeiten auf dem Gebiet, „wie man ein menschliches Genom so kompakt wie möglich speichert“, da Genomdatenbanken höchstwahrscheinlich schnell wachsen werden und Wissenschaftler effiziente Möglichkeiten zum Datenaustausch benötigen. Dafür stehen einige Tools zur Verfügung, zB DNAzip, das mit Hilfe eines ~5 Gigabyte Wörterbuchs (permanente Daten) ein menschliches Genom auf etwa 4 Megabyte komprimieren kann.

Quelle: "Menschliche Genome als E-Mail-Anhang"

CAG und T sind Nukleotide , keine Proteine. Proteine ​​sind lange Ketten von Aminosäuren; Nukleotide sind kleine zyklische Moleküle.
@matt_black: Sind sie nicht eigentlich Nukleobasen, um ganz genau zu sein?
@Tor-EinarJarnbjo: A, C, G und T können verwendet werden, um sowohl die Nukleobase (z. B. Adenin) als auch das Nukleosid (z. B. Adenosin) zu identifizieren.
Die zweite Zahl ist interessant, aber nicht wirklich eine Antwort auf die Frage: Der Informationsgehalt beträgt sicherlich mehr als 4 MB, da Sie die Wörterbuchgröße nicht einfach ignorieren können.
Der richtige Informationsgehalt ist vergleichbar mit der Größe des Genoms, etwa 1 GByte. Es gibt nur einen kleinen Faktor an redundanten oder nutzlosen Informationen.
Spekulation: 37,5 MB sind 5 % von 750 MB . Warum 5 %? Bis vor kurzem wurde geglaubt, dass der größte Teil unserer DNA „Schrott“ sei, und ich habe oft gehört, dass 95 % Schrott seien . Wer also auf "37,5 MB" gekommen ist, könnte 95 % der 750 MB als Nicht-Information abgetan haben .
@RonMaimon Nein, es ist wesentlich weniger. Vielleicht nicht 37 MB (ich weiß nicht mehr, woher diese Zahl kommt, aber sie wird häufig in der Bioinformatik zitiert – vielleicht hat Oliver Recht, aber ich bezweifle es: Die meisten Wissenschaftler wissen schon lange, dass „Junk-DNA“ einer Überprüfung nicht standhält). Trotzdem enthält DNA einige Regionen mit geringer Komplexität und kann auf mindestens 700 MB komprimiert werden.
Ich muss sagen, dass ich unglücklich bin, dass dies die akzeptierte Antwort ist. Die 37-MB-Zahl liegt im Bereich der oft zitierten Zahlen in der Bioinformatik. Ob es richtig ist oder nicht, es bedarf einer Erklärung, und die fehlt hier völlig. Leider kann ich mich für mein ganzes Leben nicht erinnern, wie die Zahl hergeleitet wurde.

Für eine einfachere Antwort können Sie sich einfach die Größe einer ASCI-codierten Textdatei ansehen, die die Informationen des menschlichen Genoms enthält. Dies ist natürlich nicht der Informationsgehalt des Genoms, der, wie Sie der obigen Antwort und den Kommentaren in diesem Thread entnehmen können, nicht so einfach zu definieren ist.

Wenn Biologen an der Genomsequenz arbeiten, liegen diese ohnehin eher in Form von FASTA-Sequenzen vor . Das menschliche Genom als Multi-Fasta-Datei ist ~3 GB groß. Sehen Sie sich zum Beispiel die Datei an, die Sie UCSC/hg19/Sequence/WholeGenomeFasta/genome.fabeim Extrahieren dieses Archivs erhalten haben .

Ich betone noch einmal, dass dies nicht der Informationsgehalt des Genoms ist . Für diejenigen von uns, die keine Informationstheoretiker sind, bietet es jedoch eine einfache Möglichkeit, die Größe des Genoms in einem Format darzustellen, mit dem wir vertraut sind: Text.