Was bedeutet es, „ein Bild und GIF in die DNA von Bakterien zu schreiben“?

BBC News hat kürzlich einen Artikel veröffentlicht , in dem es heißt:

Ein Bild und ein Kurzfilm wurden in DNA codiert, wobei die Vererbungseinheiten als Medium zum Speichern von Informationen verwendet wurden ... Das Team sequenzierte die bakterielle DNA, um das GIF und das Bild abzurufen, und verifizierte, dass die Mikroben die Daten tatsächlich wie beabsichtigt aufgenommen hatten .

Das ist das Bild:

Der Nachrichtenartikel zeigt ein Bild einer Hand (oben gezeigt) und einen Kurzfilm (hier nicht gezeigt) eines Reiters, der in die DNA kodiert wurde, „unter Verwendung eines Genombearbeitungswerkzeugs, das als Crispr [sic] bekannt ist“ .

Meine Frage ist, was bedeutet das? Haben die Wissenschaftler ein Bild in 0 und 1 zerlegt und es in Bakterien (installiert?)? Wie kann ein Wissenschaftler ein Bild in Bakterien (herunterladen?) und dann das Bild später (erneut herunterladen?)? Wie enthält die DNA Informationen über ein Bild, das heruntergeladen (heruntergeladen) werden kann?

Ich werde dies nur zu Biologie migrieren , ich glaube, Sie werden dort eine bessere Antwort bekommen. Übrigens - der BBC-Artikel verlinkt auf den Artikel im Nature-Journal, in dem diese Arbeit veröffentlicht wurde. Das ist der erste Ort, an dem Sie versuchen sollten, zu lesen (obwohl ich Ihnen keinen Vorwurf machen würde, wenn Sie es nicht verstehen).
Es ist erfrischend zu sehen, wie der tatsächliche CRISPR-Teil des CRISPR-Cas-Systems verwendet wird.
„Haben die Wissenschaftler ein Bild in 0 und 1 zerlegt“ Digitale Bilder sind bereits 0 und 1. Es muss nichts "zerlegt" werden.
Nur eine Off-Topic-Anmerkung: Wenn ich einen "Kurzfilm eines Reitpferdes" behaupte, denke ich, dass es wahrscheinlich der erste Film der Geschichte ist, "Rennpferd", das eigentlich nur aus mehreren aneinandergereihten Bildern bestand. movie.stackexchange.com/a/42182/20039

Antworten (3)

Das Bild war nicht als solches in der DNA enthalten, sondern nur als abstrakte Darstellung, die durch Kenntnis des Codes in ein Bild umgewandelt werden konnte. Kurz gesagt kodierten sie das Bild in DNA, indem sie ein paar verschiedene Strategien verwendeten, bei denen DNA Pixel darstellte – entweder mit einer einzelnen DNA-Base, die ein Pixel darstellt, oder mit einem Triplett, das ein Pixel darstellt. Da sie den verwendeten Code kannten, konnten sie die Informationen extrahieren und wieder in ein Bild umwandeln.

Zitat aus dem Originalartikel, CRISPR-Cas-Kodierung eines digitalen Films in die Genome einer Population lebender Bakterien :

Wir haben mit einem Bild begonnen und Pixelwerte in einem Nukleotidcode gespeichert ... Wir haben zuerst Bilder einer menschlichen Hand mit zwei verschiedenen Pixelwert-Codierungsstrategien codiert: eine starre Strategie, bei der 4 Pixelfarben jeweils durch eine andere Basis angegeben wurden ; und eine flexible Strategie, bei der 21 mögliche Pixelfarben durch eine entartete Nukleotidtripletttabelle spezifiziert wurden ... Um die Informationen auf mehrere Protospacer zu verteilen, gaben wir jedem Protospacer einen Barcode, der definierte, welcher Pixelsatz (als "Pixet" bezeichnet) codiert wurde durch die Nukleotide in diesem Spacer. Vier Nukleotide definieren jedes Pixel, und die Pixel eines bestimmten Pixels sind über das Bild verteilt ...

Ihre 21-Farben-Strategie ist in dieser Abbildung skizziert:

Geben Sie hier die Bildbeschreibung ein

Hinweis: Das Papier ist nicht frei zugänglich. Wenn Sie eine Vollversion wünschen, stellt Church oft frei zugängliche Versionen seiner Papiere auf seiner Website zur Verfügung ; dieses Papier, Nr. 441 auf seiner Liste, wird dort immer noch als "im Druck" angezeigt, aber schauen Sie gelegentlich wieder vorbei, vielleicht ist es dort verfügbar

Zur Verdeutlichung: Wenn ich ein quadratisches Bild mit beispielsweise 9 Pixeln (3x3) hätte, würde ich jedem Pixel "willkürliche" Basen zuweisen, sagen wir, Zeile 1: [GAT], Zeile 2: [TAC] und Zeile 3: [AAA ]. Und ich mache eine willkürliche Regel, die besagt, dass dieser 3-zeilige Basencode diesem 9-Pixel-Bild entspricht. Ich installiere diesen Code dann mit der CRISPR-Methode in Bakterien und lese ihn zurück. Einfach gesagt, haben die Wissenschaftler das getan?
Nur um dem OP klar zu sein, dies ist konzeptionell nicht anders als das Codieren von Bildern in Binärform, außer dass es 4 mögliche Zustände statt nur 2 gibt. Tatsächlich besteht jede Base in der DNA aus 2 Bits.
@PiratePi konzeptionell ist das ziemlich richtig. Sie beschreiben eine willkürliche Codierung für ein vollständiges Bild, sie haben eine willkürliche (aber konsistente) Codierung pro Pixel verwendet, aber das ist der einzige Unterschied.
Nur um eine Erklärung für einen Punkt hinzuzufügen, der möglicherweise nicht klar ist (und sinnvollerweise in die Antwort aufgenommen werden könnte). GIF ist ein Format für Farbbilder, das Bilder mit bis zu 256 Rot-Grün-Blau-Farben (2^8) zulässt. Eine Farbtabelle definiert, welche Farbe jedem der 256 Zahlenwerte entspricht. Der genetische Code erlaubt nur die Definition von maximal 64 Farben aus einer DNA-Sequenz. Diese 64 Farben können immer noch von Software interpretiert werden, die die GIF-Bildcodierung interpretieren kann – die Tatsache, dass die anderen 192 Möglichkeiten nicht verwendet werden, ist irrelevant. Ebenso für 21 statt 64.
Obwohl nichts sie daran hindert, 4-Basen-„Codons“ zu verwenden, um 256 Farben zu erhalten.
@canadianer In der Tat; für diesen Zweck ist die Verwendung von 3-Basen-Codons nichts Spezielleres als die Verwendung von 8-Bit-Bytes.
Gibt es einen Grund, AAGder keiner Zahl zugeordnet ist?
"Das Bild war nicht als solches in der DNA, nur als abstrakte Darstellung, die aus Kenntnis des Codes in ein Bild umgewandelt werden konnte" Richtig, was Codierung bedeutet . Das Bild war absolut "in der DNA" ... und die anschließende originalgetreue Extraktion beweist es.
@AndrewPiliser Das wäre eine großartige, separate Frage. AAG ist das von E. coli verwendete PAM , das für die Protospacer-Erfassung notwendig ist oder zumindest die Erfassungseffizienz stark erhöht.
Was genau ist ein Protospacer?
"Vier Nukleotide definieren jedes Pixel, und die Pixel eines gegebenen Pixels sind über das Bild verteilt" Sind diese 4 Nukleotide die 1. Base eines Triplett-Codons?
Das genannte Paper ist nicht frei zugänglich.
@Konrad Rudolph sie haben beides gemacht. „ eine starre Strategie, bei der 4 Pixelfarben jeweils durch eine andere Basis spezifiziert wurden; und eine flexible Strategie, bei der 21 mögliche Pixelfarben durch eine degenerierte Nukleotid-Triplett-Tabelle spezifiziert wurden.
@Mockingbird Der Vier-Nukleotid-Ansatz war eine andere, einfachere, aber weniger flexible Strategie als die Triplett-Strategie.
@iayork Danke für die Klarstellung, es stellt sich heraus, dass ich den Kommentar falsch gelesen habe, auf den [der von mir kritisierte Kommentar] geantwortet hat.
Ich hasse es, mich hier mit weiteren Kommentaren anzuhäufen, aber ich sollte meine vorherige Aussage korrigieren, dass es "nichts gibt, was sie daran hindert, 4-Basen-Codons zu verwenden". Tatsächlich sehe ich in der Veröffentlichung, dass sie sich bereits Gedanken über die Kosten der Synthese all dieser Oligonukleotide gemacht haben.
@LightnessRacesinOrbit Ich würde annehmen, wenn das Bild in der DNA codiert wäre, könnten die Bakterien ein Protein konstruieren, das wie dieses Bild aussehen würde. Leider war es nicht einmal im Entferntesten. Stattdessen wurde die DNA nur als Medium zur Speicherung von Bilddaten verwendet , was viel weniger aufregend ist.

Nur um hinzuzufügen, was in der schönen Antwort von @iayork möglicherweise gefehlt hat. Ich möchte nur ein einfacheres Bild der Codierung geben, die in der E. coli - DNA durchgeführt wird.

  • Nehmen wir zunächst für die starre Strategie an, bei der 4 Pixelfarben jeweils durch eine andere Basis angegeben wurden, nehmen wir an, wir haben eine Sequenz:

    AAGCCCTGGTCAGCT

    Ignorieren Sie das erste AAG und beginnen Sie mit C. Jetzt kann jede DNA-Base eine zweistellige Binärzahl darstellen, und jede Zahl entspricht dann einer Farbe, wie:

    C = 00

    T = 01

    A = 10

    G = 11

    Unter Berücksichtigung dieser Strategie würde die Sequenz CCCT 00000001 Pixel (oder Pixelsatz) ergeben, und so weiter, wenn die Sequenz wächst. Dieses Pixel würde die Farbe von vier Pixeln im Bild definieren. Somit entspricht jede Basis einem Pixel im Bild, und die Basis definiert die Farbe des Pixels in einem 4-Farben-Bild.

  • Kommen wir nun zur flexiblen Strategie . Sehen Sie sich zunächst noch einmal die Tabelle an:

    Flexibler Strategietisch

    Hier verwenden wir standardmäßige 3-Basen-Codons. Aus dem vordefinierten Wert für jede Farbe (1 bis 21) können wir die Farbe anhand des Codons finden. Zum Beispiel aus der gleichen Sequenz:

    AAGCCCTGGTCAGCT

    AAG wieder ignorieren und mit CCC beginnen. Aus der Tabelle kodiert CCC einen Wert von 1. Gehen Sie zum nächsten, TGG kodiert einen Wert von 16, TCA kodiert 10 und GCT kodiert 7 und so weiter für längere Sequenzen. Jetzt erhalten wir also ein Bild mit 4 Pixeln, dh 2 x 2, wobei die Pixel die Farbcodes 1, 16, 10, 7 haben. Auf diese Weise kann jedes Pixel eine Farbe aus vordefinierten Werten haben. Beim Extrahieren dieser Daten wird das Bild wie folgt ausgegeben (von gizmodo ):

Bild

Der obige Teil sprach hauptsächlich über das einzelne Bild einer Hand. Wenn wir jetzt über das Reiten-GIF sprechen, ist der Prozess fast derselbe. Hier müssen wir statt einem 5 Bilder codieren. Wissenschaftler codierten diese 5 Bilder in 5 verschiedenen Zellen. Nachdem sie sie für einige Generationen kultiviert hatten, extrahierten sie die Informationen aller Bilder (unter Verwendung von Standard-Bioinformatik-Tools) und kompilierten sie, um das GIF zurückzubekommen. Die ersten und letzten GIFs sehen so aus (von wired.com ):

GIF

Was bedeuten diese starr und flexibel ?

Bei dieser Technik beziehen sich die Begriffe starr und flexibel eher auf einzelne Basen als auf das Codon. Bei der starren Strategie ist der Wert jeder Basis festgelegt, dh starr. Zum Beispiel kodiert C in jeder Sequenz den Wert '00', was auch immer die nächste oder vorherige Basis ist. Das bedeutet, dass C sowohl in CCCT als auch in GGTC seinen starren Wert '00' hat. Für ein 4-Farben-Bild, bei dem jede Basis genau der Farbe eines Pixels entspricht, erhalten wir so viele Pixel wie die Basen in der Sequenz.

Andererseits haben bei der flexiblen Strategie die einzelnen Basen keinen festen Wert, und der Gesamtwert eines Pixels wird durch alle Basen definiert, die dieses Pixel codieren. Zum Beispiel kodiert TCC einen Wert von 6, während CCC 1 kodiert. Der Wert der individuellen Basis ist degeneriert (oder flexibel ), daher der Name flexible Strategie .

Kurz gesagt, während die starre Strategie effizienter ist, da ein Pixel durch eine Base definiert wird (während bei der flexiblen Strategie ein Pixel durch ein Codon definiert wird), ist die flexible Strategie besser geeignet, um mehr farbige Bilder zu erhalten mehr Farboptionen durch Erhöhen der Anzahl der Basen in einem Codon (während Sie bei der starren Strategie nur 4 Farben erhalten, die durch 4 Basen definiert sind).

Warum ignorieren wir AAG?

Wie @canadianer in ihrer Antwort betont, ist AAG ein PAM , dh Protospacer Adjacent Motif. Laut Wikipedia :

Das Protospacer Adjacent Motiv (PAM) ist eine 2-6 Basenpaare lange DNA-Sequenz, die unmittelbar auf die DNA-Sequenz folgt, auf die die Cas9-Nuklease im bakteriellen adaptiven CRISPR-Immunsystem abzielt. PAM ist eine Komponente des eindringenden Virus oder Plasmids, aber keine Komponente des bakteriellen CRISPR-Locus.

Einfach ausgedrückt (um technische Details zu vermeiden), ist PAM für die Funktion von CRISPR erforderlich, aber nicht Teil der Sequenz selbst. Ähnlich wie ein Satzzeichen ist es für das ordnungsgemäße Funktionieren von CRISPR erforderlich, darf jedoch nicht zum Zweck der Codierung/Decodierung gelesen werden. Für das in E. coli gefundene Cas9 (und ist das beliebteste) dient die Sequenz AAG als PAM und wird daher hier nicht für Codierungszwecke verwendet. Wissenschaftler haben es auch vermieden, AAG in ihren Pixeln zu verwenden, damit es nicht mehr als eine Erkennungsstelle für die Integration gibt (ignorieren Sie diesen Punkt, wenn Sie die Funktionsweise von CRISPR nicht kennen).

Referenz: Shipman, S., Nivala, J., Macklis, J. und Church, G. (2017). CRISPR-Cas-Kodierung eines digitalen Films in die Genome einer Population lebender Bakterien. Natur. http://dx.doi.org/10.1038/nature23017

Nur eine Anmerkung: Die AAGSequenz ist eine PAM für ein bestimmtes Cas-Protein. Es gibt Cas-Proteine ​​von verschiedenen Bakterienarten und sie haben unterschiedliche PAMs.
Warum liest CAS9 AAG nicht?
Nette Ergänzung, aber es gibt kein Cas9 in BL21. In diesem Artikel wird die PAM-Erkennung für den Protospacer-Erwerb ausschließlich durch den heterologen Cas1-Cas2-Komplex vermittelt. Internes AAG wird vermieden, so dass es nicht mehr als eine Erkennungsstelle für die Integration gibt.
Sie könnten auch die Vorteile eines degenerierten Codes erwähnen, die in dem Papier diskutiert werden, insbesondere die Vermeidung von Wiederholungen und internen PAMs.
Ein digitales Bild hat viele Pixel auf verschiedenen Abschnitten. Aber gibt es bei dieser Methode eine Möglichkeit, Pixel an einer bestimmten Position eines Bildes zu lokalisieren? Oder haben die Wissenschaftler unterschiedliche Bakterien für unterschiedliche Abschnitte benannt?
@mockingbird AFAIK der einzige Weg ist zu zählen. Nein, Wissenschaftler haben ein vollständiges Bild in einer Zelle codiert, nur verschiedene Bilder wurden in verschiedene Zellen integriert. Was Ihre erste Frage betrifft, Cas9 liest AAG, aber es ist eher ein Signal, also gehen wir nicht das Risiko ein, es als Pixel zu verwenden. Siehe ersten Kommentar des Kanadiers.
@Mockingbird Ich denke, sie haben einfach den gesamten CRISPR-Lokus sequenziert, was wirklich nicht übermäßig interessant ist. Für mich ist der netteste Teil dieser Forschung, wie sie CRISPR verwendet haben, um die Informationen in das Genom zu integrieren.
Ich verstehe nicht, was Sie mit "den gesamten CRISPR-Lokus im Großhandel sequenziert" meinen. Meinen Sie damit, dass der gesamte CRISPR-Lokus für ein Bild codiert ist? Aber ein Bild hat viele Pixel. Wie haben sie die Ordnung aufrechterhalten?
@Another Können Sie einen Link zu einem Papier zu diesem Phänomen einfügen, das nicht hinter der Paywall steht?
@another'Homosapien' Ja, gerade fertig ;)
Sie schreiben - Nun, jede DNA-Base kann eine zweistellige Binärzahl darstellen . Warum 2-stellig? warum nicht 1 oder 3 stellig?
@ user1993 weil es nur 4 Basen gibt, zu viele für 1 Ziffer (2) und zu wenige für 3 Ziffern (8)
Was in der Antwort jedoch nicht geklärt wurde, war die Verwendung des Wortes „GIF“ – haben die Forscher das Bild tatsächlich im CompuServe Graphics Interchange Format codiert, oder wird „GIF“ absichtlich als falsche Bezeichnung verwendet, weil es eine geläufigere Art von ist sagen "animiertes Bild"?
@oldmud0 Ich werde es auch nicht in Betracht ziehen. Sie haben einfach das GIF (dh eine Gruppe von Bildern) in einzelne Bilder zerlegt und es codiert. Später extrahierten sie die Daten für einzelne Bilder und fügten sie zusammen, um das GIF zurückzubekommen. Es ist also weder im GIF-Format codiert, noch ist GIF eine Fehlbezeichnung. Es scheint mir vollkommen in Ordnung zu sein :)
@another'Homosapien' Dann wäre es professioneller und richtiger, ein animiertes Bild nicht als GIF, sondern als animiertes Bild zu bezeichnen, oder? Ein GIF selbst wurde nicht in die DNA geschrieben, noch ist das Format des animierten Bildes ("Graphics Interchange Format ") im Experiment wichtig.
Ehrlich gesagt, ja, es sollte so sein. Aber Menschen, die mit Computern und Formaten nicht so vertraut sind, verstehen den Begriff „animiertes Bild“ oft nicht, da sie sich darauf mit dem Begriff „GIF“ beziehen (ironisch, ich weiß, aber ich habe das schon oft gesehen).
@oldmud0 Ohne das Papier noch einmal zu lesen, wäre die korrekte Beschreibung wohl, dass sie ein GIF in ihren neuartigen DNA-Code umcodiert haben.

Da einige Leute gefragt haben, warum das AAGTriplett im Code vermieden wird, dachte ich, ich würde dies zusätzlich zu den anderen Antworten hinzufügen. Der interessante Teil dieser Forschung ist nicht unbedingt die Bildkodierung, sondern vielmehr, wie sie das CRISPR-System nutzten, um die kodierende DNA in das Genom zu integrieren. Es mag für einige überraschend sein, dass das Bild nicht in einer langen Zeichenfolge codiert ist, sondern aufgrund der Natur des Typ-I-CRISPR-Systems von E. coli in 33 Basenpaarstücken, die als Protospacer bezeichnet werden (von denen 27 Basen für verwendet werden die eigentliche Codierung, die 9 Pixel pro Abstandshalter ergibt). Somit erforderte das gesamte 30x30-Pixel-Bild eine stabile Integration von 100 Protospacern (wenn auch nicht notwendigerweise in einer einzelnen Zelle). Diese Protospacer (Oligonukleotide) wurden chemisch synthetisiert und dann in Zellen dadurch eingeführtElektroporation .

Die Integration dieser Protospacer in den genomischen CRISPR-Locus nutzte die Überexpression heterologer Cas1- und Cas2-Endonukleasen. Diese Proteine ​​erkennen bevorzugt exogene DNA, wenn sie von einem Protospacer-assoziierten Motiv (PAM) flankiert wird , was im Fall des fraglichen CRISPR-Systems AAG. Der Komplex erkennt das PAM und spaltet die exogene DNA, um den 33-bp-Spacer zu bilden, der in das Genom eingefügt wird. Vereinfacht könnte man sich das so vorstellen:

Geben Sie hier die Bildbeschreibung ein

Betrachten Sie jedoch eine Situation, in der AAG zum Codieren eines Pixels verwendet wird:

Geben Sie hier die Bildbeschreibung ein

Dadurch entsteht ein internes PAM, das zu Informationsverlust führen kann, je nachdem welches PAM erkannt wird. Tatsächlich besteht der Hauptvorteil eines degenerierten Codes darin, bestimmte Tripelkombinationen zu vermeiden, die zu internen PAMs oder Sequenzwiederholungen führen (die bei der Replikation fehleranfällig sind).


Referenzen/Weiterführende Literatur:

Amitai G, Sorek R. 2016. CRISPR-Cas-Anpassung: Einblicke in den Wirkmechanismus. Nat. Rev. Microbiol. 14: 67-76.

Shipman SL, Nivala J, Macklis JD, Kirche GM. 2017. CRISPR-Cas-Codierung eines digitalen Films in die Genome einer Population lebender Bakterien. Natur.

Wang J, Li J, Zhao H, Sheng G, Wang M, Yin M, Wang Y. 2015. Strukturelle und mechanistische Grundlagen der PAM-abhängigen Spacer-Akquisition in CRISPR-Cas-Systemen. Zelle 163:840-853

PS: Für alle, die es interessiert, diese Bilder sind technisch nicht korrekt, aber im Moment habe ich keine Lust, sie zu ändern. In Wirklichkeit ist das PAM kein Teil des verarbeiteten Abstandshalters.

Gut genug, +1! Aber ich denke, Sie sollten den zweiten Absatz etwas erweitern :P
@another'Homosapien' Ich habe versucht, zu viele mechanistische Details zu vermeiden, da ich erwarte, dass viele der an dieser Frage interessierten Personen nicht sehr gut mit den Feinheiten von CRISPR-Cas vertraut sind (und ich übrigens auch nicht). Für Vorschläge bin ich aber offen.
Wie soll man ohne Fachjargon die Glaubwürdigkeit beurteilen? ;)