Standardverfahren zum Generieren von Verdünnungskurven aus Next-Generation-Sequencing-Daten

Wir haben einige Millionen 18S-Reads aus einer bestimmten Umgebung. Die Lesevorgänge wurden in Operational Taxonomic Unit (OTU) geclustert und die OTUs mit einer Referenzdatenbank kommentiert.

Um eine Verdünnungskurve zu erzeugen, ist mein Verständnis, dass man zufällig abtastet n liest wo n reicht (mit einer gewissen Schrittgröße) von 0 bis zur Gesamtzahl der Lesevorgänge und zählt die Anzahl der OTUs, die bei jeder solchen Unterabtastung beobachtet wurden.

Welche dieser beiden Möglichkeiten, wie sie von Sequenzanalyse-Suiten wie QIIME und mothur implementiert werden, ist Standardpraxis? Welches wäre am besten in der obigen Situation zu verwenden?

  1. Behandeln Sie die ursprünglichen Zuweisungen von Reads zu OTUs als Wahrheit, und zwar beim Resampling n liest, zählen Sie einfach die Anzahl der "ursprünglichen" OTUs, die in dieser Unterstichprobe beobachtet wurden.

  2. Gruppieren Sie die unterabgetasteten Reads neu und zählen Sie dann die Anzahl der „neuen“ OTUs in der Unterabtastung.

Mein Gefühl beim Lesen der QIIME-Dokumentation ist, dass Methode 1 der Standard ist, aber ich bin mir nicht sicher. Ich verstehe auch nicht ganz, warum Methode 2 nicht der bessere Weg wäre, obwohl es rechenintensiver wäre.

Der erste ist der Standard. Verdünnungskurven (so wie sie sind) sind nur unter invarianten Sätzen von OTUs sinnvoll. Da Ausrichtungsabstände keine Metriken sind (d. h. die Dreiecksungleichung verletzen), sind Cluster, die durch einen Identitätsschwellenwert definiert sind, keine geometrisch stabilen Bereiche in einem Sequenzraum, daher sind sie unter Reclustering bei einem kleineren / größeren Satz von Sequenzen nicht invariant.
@ Eli, genau, aber wenn es darum geht zu sagen: "So viele OTUs hätten wir identifiziert, wenn wir so viele Sequenzen gehabt hätten", ist eine erneute Gruppierung nicht sinnvoll? Oder ist das nicht der Punkt?
Meine Erfahrung ist mit 16S, aber ich kann in diesem Zusammenhang sagen, dass Option 1 Standard ist. Sie könnten versuchen, Ihre Pipeline mit simulierten Daten auszuführen, damit Sie Fehler berechnen und Methoden vergleichen können.

Antworten (1)

Ich arbeite eigentlich in derselben Gruppe wie Chris (QIIME-Autor), also hoffe ich, dass dies hilft: Eine Erklärung, die er uns vor einiger Zeit über die Grundlage von Verdünnungskurven gegeben hat, soll nur einen Hinweis darauf geben, ob Ihr Sampling eine gesättigte Vielfalt erreicht. beim Vergleich von 2 ungleichen Proben.

Wenn Sie 2 Proben vergleichen, bei denen Probe x weniger Informationen (Reads/Amplikons usw.) enthält, die dies unterstützen, können Sie nicht sicher sein, dass Sie die gesamte mögliche Vielfalt abgetastet haben.

Daher zeichnen Sie die Anzahl der OTUs, die Sie sehen, für eine zunehmende Anzahl von Lesevorgängen auf. Wenn Sie die Vielfalt sättigen, sollten Sie ein Plateau sehen.

Um die 2 Stichproben mit der „Menge an unterstützenden Daten“ in Einklang zu bringen, die sie haben, sticht man die Daten des größeren Datensatzes nach dem Zufallsprinzip zusammen, sodass sie mit dem kleineren übereinstimmen, und vergleicht dann die Anzahl der OTUs, die jeder meldet.