[ Quelle ]
In einer Episode der BBC-Show QI – Quite Interesting (Serie J, Episode 1) sagte Stephen Fry :
Was glauben Sie, wie viele Informationen in der DNA eines kleinen Spermiums stecken...?
37,5 MB...
...eine normale männliche Ejakulation, falls es so etwas gibt, entspricht 15.875 GB. Das sind etwa 7500 Laptops an Informationen...
Die Twitter-Seite zeigt es zusammengefasst:
Ein Spermium hat 37,5 MB DNA-Informationen.
Bei einer Ejakulation werden 15.875 GB an Daten übertragen, was dem Speicherplatz von 7.500 Laptops entspricht.
(bei "200 Millionen Spermien pro Ejakulation" käme man eigentlich auf 7150 TB;
mich interessiert aber eher woher die 37,5 MB Zahl kommt)
Meine Frage:
Ich bin mir nicht sicher, woher diese Zahlen kommen, und die Antwort hängt davon ab, wie Sie die Genomdaten codieren und ob Sie alle Redundanzen (unnötige, sich wiederholende Daten) als "Informationen" definieren.
Zunächst einmal enthält das menschliche Genom ungefähr 3,1 (Männer) bis 3,2 (Frauen) Milliarden Basenpaare. Da das X-Chromosom dreimal länger ist als das Y-Chromosom, haben Frauen eine höhere Gesamtgenomlänge als Männer.
Quelle: „Human Genome Assembly Information“ des „Genome Reference Consortium“
Ein Basenpaar besteht aus zwei der vier Nukleobasen Adenin, Cytosin, Guanin und Thymin, aber nur die vier Kombinationen AT, TA, CG und GC sind möglich, da die A- und T-Nukleobasen nicht an die C- und G-Nukleobasen binden und und umgekehrt. Diese vier Kombinationen können mit zwei Bit kodiert werden, sodass 6,2-6,4 Gigabit oder etwa 750 Megabyte benötigt werden, um eine exakte Kopie des Genoms zu speichern.
Selbst wenn man 750 Megabyte braucht, um die "Rohdaten" eines menschlichen Genoms zu speichern, wird es zumindest einem Informatiker schwerfallen, all dies als "Information" zu definieren. Wenn Sie zB 74 Minuten völlige Stille auf eine CD aufnehmen, enthält die Scheibe zwar auch rund 750 Megabyte an „Daten“, aber eigentlich keine „Informationen“. Große Teile des menschlichen Genoms sind repetitiv, nur ein sehr kleiner Teil unterscheidet sich tatsächlich zwischen verschiedenen Individuen und aufgrund des Unterschieds kommen mehrere Basenpaarsequenzen nur in wenigen wohldefinierten Varianten vor.
Es gibt tatsächlich einige Forschungsarbeiten auf dem Gebiet, „wie man ein menschliches Genom so kompakt wie möglich speichert“, da Genomdatenbanken höchstwahrscheinlich schnell wachsen werden und Wissenschaftler effiziente Möglichkeiten zum Datenaustausch benötigen. Dafür stehen einige Tools zur Verfügung, zB DNAzip, das mit Hilfe eines ~5 Gigabyte Wörterbuchs (permanente Daten) ein menschliches Genom auf etwa 4 Megabyte komprimieren kann.
Für eine einfachere Antwort können Sie sich einfach die Größe einer ASCI-codierten Textdatei ansehen, die die Informationen des menschlichen Genoms enthält. Dies ist natürlich nicht der Informationsgehalt des Genoms, der, wie Sie der obigen Antwort und den Kommentaren in diesem Thread entnehmen können, nicht so einfach zu definieren ist.
Wenn Biologen an der Genomsequenz arbeiten, liegen diese ohnehin eher in Form von FASTA-Sequenzen vor . Das menschliche Genom als Multi-Fasta-Datei ist ~3 GB groß. Sehen Sie sich zum Beispiel die Datei an, die Sie UCSC/hg19/Sequence/WholeGenomeFasta/genome.fa
beim Extrahieren dieses Archivs erhalten haben .
Ich betone noch einmal, dass dies nicht der Informationsgehalt des Genoms ist . Für diejenigen von uns, die keine Informationstheoretiker sind, bietet es jedoch eine einfache Möglichkeit, die Größe des Genoms in einem Format darzustellen, mit dem wir vertraut sind: Text.
Nick
Nick
Oliver_C
Nick
vartec
Andreas Bonini
Nick
rjzii
Zonata
Martin Scharrer
Niko
Andreas Grimm
Tschad
vartec
Tschad
inf3rnr
Benutzer14801
Benutzer14703