Ich habe einen Artikel über Harvard-Wissenschaftler gelesen, die 700 TB Daten in DNA-Strängen kodieren. Aber sie haben die Informationen zur Basis 2 kodiert, also repräsentieren T und G beide 1 und C und A repräsentieren beide 0. Aber warum binär? Warum haben sie nicht einfach Basis 4 verwendet?
EDIT: hier der Link
In dem Forschungsartikel über die Bemühungen geben sie die folgende Erklärung für das Verdoppeln von Nukleotiden, anstatt dass jedes Nukleotid für zwei Bits steht:
Dies ermöglicht es uns, Nachrichten auf viele Arten zu codieren, um Sequenzen zu vermeiden, die schwer zu lesen oder zu schreiben sind, wie z. B. extreme GC
In der Praxis wählten sie zufällig aus, welche Base des Paares es war (also ein GC-Gehalt von 50 %), während sie Homopolymerläufe von mehr als drei nicht zuließen.
Ihr Schema verwendet auch Strichcodes und Adressen als "Inhaltsverzeichnis"/"Index"/"Seitenzahlen". (Die Daten wurden nicht auf einem einzigen langen DNA-Stück gespeichert, sondern auf einer großen Anzahl kürzerer Fragmente.) Durch ein leicht flexibles Codierungsschema können sie möglicherweise vermeiden, diese Anmerkungselemente in den Inhalt einzufügen.
Darüber hinaus würde ein leicht flexibles Codierungsschema es ihnen ermöglichen, die versehentliche Codierung eines Textes mit einem Teil des Genoms eines ausgewählten Agenten zu vermeiden. (Das heißt, Sie möchten keinen Teil des Pockengenoms synthetisieren, wenn Sie Ihren Roman aufbewahren. Wenn Sie die verwendeten Nukleotide ändern können, können Sie dies vermeiden.)
Maljam