BBC News hat kürzlich einen Artikel veröffentlicht , in dem es heißt:
Ein Bild und ein Kurzfilm wurden in DNA codiert, wobei die Vererbungseinheiten als Medium zum Speichern von Informationen verwendet wurden ... Das Team sequenzierte die bakterielle DNA, um das GIF und das Bild abzurufen, und verifizierte, dass die Mikroben die Daten tatsächlich wie beabsichtigt aufgenommen hatten .
Der Nachrichtenartikel zeigt ein Bild einer Hand (oben gezeigt) und einen Kurzfilm (hier nicht gezeigt) eines Reiters, der in die DNA kodiert wurde, „unter Verwendung eines Genombearbeitungswerkzeugs, das als Crispr [sic] bekannt ist“ .
Meine Frage ist, was bedeutet das? Haben die Wissenschaftler ein Bild in 0 und 1 zerlegt und es in Bakterien (installiert?)? Wie kann ein Wissenschaftler ein Bild in Bakterien (herunterladen?) und dann das Bild später (erneut herunterladen?)? Wie enthält die DNA Informationen über ein Bild, das heruntergeladen (heruntergeladen) werden kann?
Das Bild war nicht als solches in der DNA enthalten, sondern nur als abstrakte Darstellung, die durch Kenntnis des Codes in ein Bild umgewandelt werden konnte. Kurz gesagt kodierten sie das Bild in DNA, indem sie ein paar verschiedene Strategien verwendeten, bei denen DNA Pixel darstellte – entweder mit einer einzelnen DNA-Base, die ein Pixel darstellt, oder mit einem Triplett, das ein Pixel darstellt. Da sie den verwendeten Code kannten, konnten sie die Informationen extrahieren und wieder in ein Bild umwandeln.
Zitat aus dem Originalartikel, CRISPR-Cas-Kodierung eines digitalen Films in die Genome einer Population lebender Bakterien :
Wir haben mit einem Bild begonnen und Pixelwerte in einem Nukleotidcode gespeichert ... Wir haben zuerst Bilder einer menschlichen Hand mit zwei verschiedenen Pixelwert-Codierungsstrategien codiert: eine starre Strategie, bei der 4 Pixelfarben jeweils durch eine andere Basis angegeben wurden ; und eine flexible Strategie, bei der 21 mögliche Pixelfarben durch eine entartete Nukleotidtripletttabelle spezifiziert wurden ... Um die Informationen auf mehrere Protospacer zu verteilen, gaben wir jedem Protospacer einen Barcode, der definierte, welcher Pixelsatz (als "Pixet" bezeichnet) codiert wurde durch die Nukleotide in diesem Spacer. Vier Nukleotide definieren jedes Pixel, und die Pixel eines bestimmten Pixels sind über das Bild verteilt ...
Ihre 21-Farben-Strategie ist in dieser Abbildung skizziert:
Hinweis: Das Papier ist nicht frei zugänglich. Wenn Sie eine Vollversion wünschen, stellt Church oft frei zugängliche Versionen seiner Papiere auf seiner Website zur Verfügung ; dieses Papier, Nr. 441 auf seiner Liste, wird dort immer noch als "im Druck" angezeigt, aber schauen Sie gelegentlich wieder vorbei, vielleicht ist es dort verfügbar
AAG
der keiner Zahl zugeordnet ist?Nur um hinzuzufügen, was in der schönen Antwort von @iayork möglicherweise gefehlt hat. Ich möchte nur ein einfacheres Bild der Codierung geben, die in der E. coli - DNA durchgeführt wird.
Nehmen wir zunächst für die starre Strategie an, bei der 4 Pixelfarben jeweils durch eine andere Basis angegeben wurden, nehmen wir an, wir haben eine Sequenz:
AAGCCCTGGTCAGCT
Ignorieren Sie das erste AAG und beginnen Sie mit C. Jetzt kann jede DNA-Base eine zweistellige Binärzahl darstellen, und jede Zahl entspricht dann einer Farbe, wie:
C = 00
T = 01
A = 10
G = 11
Unter Berücksichtigung dieser Strategie würde die Sequenz CCCT 00000001 Pixel (oder Pixelsatz) ergeben, und so weiter, wenn die Sequenz wächst. Dieses Pixel würde die Farbe von vier Pixeln im Bild definieren. Somit entspricht jede Basis einem Pixel im Bild, und die Basis definiert die Farbe des Pixels in einem 4-Farben-Bild.
Kommen wir nun zur flexiblen Strategie . Sehen Sie sich zunächst noch einmal die Tabelle an:
Hier verwenden wir standardmäßige 3-Basen-Codons. Aus dem vordefinierten Wert für jede Farbe (1 bis 21) können wir die Farbe anhand des Codons finden. Zum Beispiel aus der gleichen Sequenz:
AAGCCCTGGTCAGCT
AAG wieder ignorieren und mit CCC beginnen. Aus der Tabelle kodiert CCC einen Wert von 1. Gehen Sie zum nächsten, TGG kodiert einen Wert von 16, TCA kodiert 10 und GCT kodiert 7 und so weiter für längere Sequenzen. Jetzt erhalten wir also ein Bild mit 4 Pixeln, dh 2 x 2, wobei die Pixel die Farbcodes 1, 16, 10, 7 haben. Auf diese Weise kann jedes Pixel eine Farbe aus vordefinierten Werten haben. Beim Extrahieren dieser Daten wird das Bild wie folgt ausgegeben (von gizmodo ):
Der obige Teil sprach hauptsächlich über das einzelne Bild einer Hand. Wenn wir jetzt über das Reiten-GIF sprechen, ist der Prozess fast derselbe. Hier müssen wir statt einem 5 Bilder codieren. Wissenschaftler codierten diese 5 Bilder in 5 verschiedenen Zellen. Nachdem sie sie für einige Generationen kultiviert hatten, extrahierten sie die Informationen aller Bilder (unter Verwendung von Standard-Bioinformatik-Tools) und kompilierten sie, um das GIF zurückzubekommen. Die ersten und letzten GIFs sehen so aus (von wired.com ):
Was bedeuten diese starr und flexibel ?
Bei dieser Technik beziehen sich die Begriffe starr und flexibel eher auf einzelne Basen als auf das Codon. Bei der starren Strategie ist der Wert jeder Basis festgelegt, dh starr. Zum Beispiel kodiert C in jeder Sequenz den Wert '00', was auch immer die nächste oder vorherige Basis ist. Das bedeutet, dass C sowohl in CCCT als auch in GGTC seinen starren Wert '00' hat. Für ein 4-Farben-Bild, bei dem jede Basis genau der Farbe eines Pixels entspricht, erhalten wir so viele Pixel wie die Basen in der Sequenz.
Andererseits haben bei der flexiblen Strategie die einzelnen Basen keinen festen Wert, und der Gesamtwert eines Pixels wird durch alle Basen definiert, die dieses Pixel codieren. Zum Beispiel kodiert TCC einen Wert von 6, während CCC 1 kodiert. Der Wert der individuellen Basis ist degeneriert (oder flexibel ), daher der Name flexible Strategie .
Kurz gesagt, während die starre Strategie effizienter ist, da ein Pixel durch eine Base definiert wird (während bei der flexiblen Strategie ein Pixel durch ein Codon definiert wird), ist die flexible Strategie besser geeignet, um mehr farbige Bilder zu erhalten mehr Farboptionen durch Erhöhen der Anzahl der Basen in einem Codon (während Sie bei der starren Strategie nur 4 Farben erhalten, die durch 4 Basen definiert sind).
Warum ignorieren wir AAG?
Wie @canadianer in ihrer Antwort betont, ist AAG ein PAM , dh Protospacer Adjacent Motif. Laut Wikipedia :
Das Protospacer Adjacent Motiv (PAM) ist eine 2-6 Basenpaare lange DNA-Sequenz, die unmittelbar auf die DNA-Sequenz folgt, auf die die Cas9-Nuklease im bakteriellen adaptiven CRISPR-Immunsystem abzielt. PAM ist eine Komponente des eindringenden Virus oder Plasmids, aber keine Komponente des bakteriellen CRISPR-Locus.
Einfach ausgedrückt (um technische Details zu vermeiden), ist PAM für die Funktion von CRISPR erforderlich, aber nicht Teil der Sequenz selbst. Ähnlich wie ein Satzzeichen ist es für das ordnungsgemäße Funktionieren von CRISPR erforderlich, darf jedoch nicht zum Zweck der Codierung/Decodierung gelesen werden. Für das in E. coli gefundene Cas9 (und ist das beliebteste) dient die Sequenz AAG als PAM und wird daher hier nicht für Codierungszwecke verwendet. Wissenschaftler haben es auch vermieden, AAG in ihren Pixeln zu verwenden, damit es nicht mehr als eine Erkennungsstelle für die Integration gibt (ignorieren Sie diesen Punkt, wenn Sie die Funktionsweise von CRISPR nicht kennen).
AAG
Sequenz ist eine PAM für ein bestimmtes Cas-Protein. Es gibt Cas-Proteine von verschiedenen Bakterienarten und sie haben unterschiedliche PAMs.Da einige Leute gefragt haben, warum das AAG
Triplett im Code vermieden wird, dachte ich, ich würde dies zusätzlich zu den anderen Antworten hinzufügen. Der interessante Teil dieser Forschung ist nicht unbedingt die Bildkodierung, sondern vielmehr, wie sie das CRISPR-System nutzten, um die kodierende DNA in das Genom zu integrieren. Es mag für einige überraschend sein, dass das Bild nicht in einer langen Zeichenfolge codiert ist, sondern aufgrund der Natur des Typ-I-CRISPR-Systems von E. coli in 33 Basenpaarstücken, die als Protospacer bezeichnet werden (von denen 27 Basen für verwendet werden die eigentliche Codierung, die 9 Pixel pro Abstandshalter ergibt). Somit erforderte das gesamte 30x30-Pixel-Bild eine stabile Integration von 100 Protospacern (wenn auch nicht notwendigerweise in einer einzelnen Zelle). Diese Protospacer (Oligonukleotide) wurden chemisch synthetisiert und dann in Zellen dadurch eingeführtElektroporation .
Die Integration dieser Protospacer in den genomischen CRISPR-Locus nutzte die Überexpression heterologer Cas1- und Cas2-Endonukleasen. Diese Proteine erkennen bevorzugt exogene DNA, wenn sie von einem Protospacer-assoziierten Motiv (PAM) flankiert wird , was im Fall des fraglichen CRISPR-Systems AAG
. Der Komplex erkennt das PAM und spaltet die exogene DNA, um den 33-bp-Spacer zu bilden, der in das Genom eingefügt wird. Vereinfacht könnte man sich das so vorstellen:
Betrachten Sie jedoch eine Situation, in der AAG zum Codieren eines Pixels verwendet wird:
Dadurch entsteht ein internes PAM, das zu Informationsverlust führen kann, je nachdem welches PAM erkannt wird. Tatsächlich besteht der Hauptvorteil eines degenerierten Codes darin, bestimmte Tripelkombinationen zu vermeiden, die zu internen PAMs oder Sequenzwiederholungen führen (die bei der Replikation fehleranfällig sind).
Referenzen/Weiterführende Literatur:
PS: Für alle, die es interessiert, diese Bilder sind technisch nicht korrekt, aber im Moment habe ich keine Lust, sie zu ändern. In Wirklichkeit ist das PAM kein Teil des verarbeiteten Abstandshalters.
Orthokresol
Kanadier
Leichtigkeitsrennen im Orbit
Zaibis