Was sind die Einschränkungen der aktuellen Nukleotidsequenzierungstechnologien?

Mit der Illumina-Plattform ist es billig und (relativ) einfach, große Mengen an DNA oder RNA zu sequenzieren. Es gibt verschiedene andere Plattformen (Roche/454, SOLiD, PacBio, Ion Torrent), jede mit ihren eigenen Vorteilen, aber Illumina scheint trotz seiner Einschränkungen für viele Anwendungen ziemlich beliebt zu sein.

Idealerweise möchten wir eine Sequenzierungstechnologie, die lange, fehlerfreie Lesevorgänge mit hohem Durchsatz erzeugt. An diesem Punkt müssen wir uns jedoch anscheinend entscheiden: Durchsatz oder Länge (und Qualität). PacBio scheint vielversprechend zu sein, aber das letzte, was ich gehört habe, war, dass sie ihre Ansprüche immer noch nicht erfüllen konnten.

Was sind die molekularen und biochemischen Einschränkungen unserer derzeitigen Sequenzierungstechnologien? Warum haben wir nicht schon lange, fehlerfreie Lesevorgänge mit hohem Durchsatz?

Ich vermute, dass hier das Projektdreieck am Werk ist. en.wikipedia.org/wiki/Project_triangle
@bobthejoe Im Idealfall möchten wir so lange wie möglich, oder? :) Ich halte die Obergrenze von Sanger-Read-Längen (+/- 1000 bp) für lang, aber es wäre auch schön zu wissen, warum wir keine längeren Reads bekommen können (mit oder ohne hohen Durchsatz, niedrige Fehlerraten, also an).
Alle oder die meisten der von Ihnen beschriebenen Einschränkungen können einfach durch die Brute-Force-Methode überwunden werden. Fast jedes Genom, das heute mit irgendeiner Hochdurchsatztechnologie sequenziert wird, ist von sehr hoher Qualität, wenn Sie es 100 Mal sequenzieren. Es ist nur eine Frage von Zeit und Geld. Denken Sie daran, dass das ursprüngliche menschliche Genom von vielen Sanger-Maschinen sequenziert und viel geklont wurde.
@yotiao Was du sagst, ist wahr, aber nur bis zu einem gewissen Punkt. Meine Erfahrung ist, dass Baugruppen und andere Analysen sich mit der Abdeckung verbessern, aber an einem bestimmten Punkt bringt das Hinzufügen weiterer Daten nur minimale Verbesserungen, selbst wenn es eine signifikante Hinzufügung neuer Daten gibt. Und zu sagen, dass das Humangenomprojekt vor allem deshalb erfolgreich war, weil sie viele Sanger-Sequenzierer für das Projekt eingesetzt haben, ignoriert die signifikanten Unterschiede zwischen der Art und Qualität der von der Sanger-Plattform produzierten Daten im Gegensatz zu den heutigen Hochdurchsatzplattformen.
@Daniel Ja, im Prinzip hast du recht. Aber wenn Sie dann eine möglichst perfekte und vollständige Sequenz benötigen, würde ich vorschlagen, dass die Einschränkungen dieselben sind wie zuvor: DNA selbst mit ihrem extrem hohen Wiederholungsgehalt, Polyploidie. Sanger und Positional Cloning konnten dieses Problem nicht lösen (daher Lücken in der fertigen menschlichen Genomsequenz) und gelten als Goldstandard (bin ich schon so alt?).

Antworten (2)

Es scheint, als hätten Sie Ihre eigene Frage beantwortet, das Signal von einigen Molekülen, die durch ein Enzym oder eine Polymerase laufen, neigt dazu, nach einigen hundert Basen aus dem Takt zu geraten. Wenn ein Enzym für die Sequenzierung strenger im Zeitschritt wäre, könnte das zum Beispiel helfen. Die Maschinen lesen Spuren in vier Kanälen mit schönen Unebenheiten für jede Basis. In diesem Artikel finden Sie ein schönes Beispiel. Sie können sehen, dass es schwierig wird, zu sagen, wie viele Basen vorhanden sind, wenn zu viele gleiche Basen nacheinander vorhanden sind. Mit der Zeit werden alle vier Spuren verschmieren und du kannst Adam nicht von Thelma unterscheiden, wenn du verstehst, was ich meine.

Aber es gibt noch andere Engpässe.

Die Sequenzer geben derzeit so viele Daten aus, dass die Analyse der Bedeutung der Ausgabedaten nicht schnell genug analysiert werden kann. Dies folgt dem Trend in der Biotechnologie der letzten 12 Jahre – mehr Sequenzdaten, Microarray-Daten, mehr Mutationsdaten, mehr Genome als Menschen, die damit tatsächlich die Biologie verstehen können. Es gibt jetzt einen kleinen Analyse-Engpass.

Daher haben einige dieser Sequenzer größere Leselängen, was das Zusammenstellen einer Sequenz erleichtern kann. Diese Sequenzer kosten im Allgemeinen mehr. Wenn Sie beispielsweise eine Bibliothek haben, um ein kleines Pilz- oder Algengenom zu sequenzieren, erhalten Sie die Antwort jetzt innerhalb eines Tages oder weniger. In Form von 1 Tb Reads mit einer Länge von vielleicht 50 bis 200 bp. Es kann ziemlich lange dauern, das zu einer neuen Genomsequenz zusammenzufügen, noch mehr Zeit, um die Gene zu finden, die Gennetzwerke aus einer Vorlage von Signalwegen aufzubauen usw. Stellen Sie sich nur vor, tausend Sequenzer arbeiten Tag und Nacht und Sie bekommen das Bild, das ich hier zu malen versuche.

Über Kosten. Ion Torrent und die neuen Oxford Nanopore-Sequenzer sind wirklich billig – 50.000 $ bis vielleicht 900 $ für den USB-Sequenzer von Oxford Nanopore. Die meisten anderen Systeme kosten Hunderttausende von Dollar. Ion Torrent und Nanopore haben mehr Einwegartikel – Sie werfen einen Chip oder sogar den gesamten Sequenzer weg – zu einem Preis von Hunderten von Dollar pro Probe.

Im Laufe des Sommers habe ich an einigen Konferenzen teilgenommen, einschließlich eines Tagesseminars, das sich auf die Zusammenstellung von 30-fachen Coverage-Genomen aus MiSeq-Daten konzentrierte, und die Verzerrungen in den Sequenzern führten zu systematischen Fehlern, die die Interpretation einiger Daten erschwerten. HTS-Daten sind nicht Plug-and-Play, auch nicht mit Open-Source-Software. noch nicht.

F1) Was sind die molekularen und biochemischen Einschränkungen unserer aktuellen Sequenzierungstechnologien?

A1) AFAIK:

Illumina hat es schwer, lange Reads zu produzieren (obwohl miseq jetzt Reads mit 300 bp erzeugen kann, die gepaart werden können, das sogenannte Paired End 2X300), da nach einer bestimmten Anzahl von Basen, die synthetisiert und mit der Kamera aufgezeichnet werden (Illumina sequenziert durch Synthese , im Grunde fügen Sie Basen hinzu und messen die Fluoreszenz bei jedem Zyklus), dh nach einer bestimmten Anzahl von "Zyklen" können Sie Syncro verlieren und die Qualität der Basen nimmt ab.

PacBio kann sehr lange Moleküle erzeugen, aber sie haben immer noch große Probleme mit der Zuverlässigkeit des Lesens der Basen (ich weiß nicht, was hier das Problem ist)

Q2) Warum haben wir nicht schon lange, fehlerfreie Lesevorgänge mit hohem Durchsatz?

A2) Weil es schwer ist! Aber wir bewegen uns darauf zu!