Standardverfahren zum Generieren von Verdünnungskurven aus Next-Generation-Sequencing-Daten

Question

Standardverfahren zum Generieren von Verdünnungskurven aus Next-Generation-Sequencing-Daten

Biologie
Mikrobiom
Bioinformatik
DNA-Sequenzierung
Sequenzanalyse

Ben S.

Wir haben einige Millionen 18S-Reads aus einer bestimmten Umgebung. Die Lesevorgänge wurden in Operational Taxonomic Unit (OTU) geclustert und die OTUs mit einer Referenzdatenbank kommentiert.

Um eine Verdünnungskurve zu erzeugen, ist mein Verständnis, dass man zufällig abtastet $n$ liest wo $n$ reicht (mit einer gewissen Schrittgröße) von 0 bis zur Gesamtzahl der Lesevorgänge und zählt die Anzahl der OTUs, die bei jeder solchen Unterabtastung beobachtet wurden.

Welche dieser beiden Möglichkeiten, wie sie von Sequenzanalyse-Suiten wie QIIME und mothur implementiert werden, ist Standardpraxis? Welches wäre am besten in der obigen Situation zu verwenden?

Behandeln Sie die ursprünglichen Zuweisungen von Reads zu OTUs als Wahrheit, und zwar beim Resampling $n$ liest, zählen Sie einfach die Anzahl der "ursprünglichen" OTUs, die in dieser Unterstichprobe beobachtet wurden.
Gruppieren Sie die unterabgetasteten Reads neu und zählen Sie dann die Anzahl der „neuen“ OTUs in der Unterabtastung.

Mein Gefühl beim Lesen der QIIME-Dokumentation ist, dass Methode 1 der Standard ist, aber ich bin mir nicht sicher. Ich verstehe auch nicht ganz, warum Methode 2 nicht der bessere Weg wäre, obwohl es rechenintensiver wäre.

CKM

vielleicht verwandt biostars.org/p/4147 .. Colwell et al. 2012

Eli Korvigo

Der erste ist der Standard. Verdünnungskurven (so wie sie sind) sind nur unter invarianten Sätzen von OTUs sinnvoll. Da Ausrichtungsabstände keine Metriken sind (d. h. die Dreiecksungleichung verletzen), sind Cluster, die durch einen Identitätsschwellenwert definiert sind, keine geometrisch stabilen Bereiche in einem Sequenzraum, daher sind sie unter Reclustering bei einem kleineren / größeren Satz von Sequenzen nicht invariant.

Ben S.

@ Eli, genau, aber wenn es darum geht zu sagen: "So viele OTUs hätten wir identifiziert, wenn wir so viele Sequenzen gehabt hätten", ist eine erneute Gruppierung nicht sinnvoll? Oder ist das nicht der Punkt?

Galen

Meine Erfahrung ist mit 16S, aber ich kann in diesem Zusammenhang sagen, dass Option 1 Standard ist. Sie könnten versuchen, Ihre Pipeline mit simulierten Daten auszuführen, damit Sie Fehler berechnen und Methoden vergleichen können.

Antworten (1)

Standardverfahren zum Generieren von Verdünnungskurven aus Next-Generation-Sequencing-Daten

vielleicht verwandt biostars.org/p/4147 .. Colwell et al. 2012
Der erste ist der Standard. Verdünnungskurven (so wie sie sind) sind nur unter invarianten Sätzen von OTUs sinnvoll. Da Ausrichtungsabstände keine Metriken sind (d. h. die Dreiecksungleichung verletzen), sind Cluster, die durch einen Identitätsschwellenwert definiert sind, keine geometrisch stabilen Bereiche in einem Sequenzraum, daher sind sie unter Reclustering bei einem kleineren / größeren Satz von Sequenzen nicht invariant.
@ Eli, genau, aber wenn es darum geht zu sagen: "So viele OTUs hätten wir identifiziert, wenn wir so viele Sequenzen gehabt hätten", ist eine erneute Gruppierung nicht sinnvoll? Oder ist das nicht der Punkt?
Meine Erfahrung ist mit 16S, aber ich kann in diesem Zusammenhang sagen, dass Option 1 Standard ist. Sie könnten versuchen, Ihre Pipeline mit simulierten Daten auszuführen, damit Sie Fehler berechnen und Methoden vergleichen können.

Joe Healey · Answer 1

Ich arbeite eigentlich in derselben Gruppe wie Chris (QIIME-Autor), also hoffe ich, dass dies hilft: Eine Erklärung, die er uns vor einiger Zeit über die Grundlage von Verdünnungskurven gegeben hat, soll nur einen Hinweis darauf geben, ob Ihr Sampling eine gesättigte Vielfalt erreicht. beim Vergleich von 2 ungleichen Proben.

Wenn Sie 2 Proben vergleichen, bei denen Probe x weniger Informationen (Reads/Amplikons usw.) enthält, die dies unterstützen, können Sie nicht sicher sein, dass Sie die gesamte mögliche Vielfalt abgetastet haben.

Daher zeichnen Sie die Anzahl der OTUs, die Sie sehen, für eine zunehmende Anzahl von Lesevorgängen auf. Wenn Sie die Vielfalt sättigen, sollten Sie ein Plateau sehen.

Um die 2 Stichproben mit der „Menge an unterstützenden Daten“ in Einklang zu bringen, die sie haben, sticht man die Daten des größeren Datensatzes nach dem Zufallsprinzip zusammen, sodass sie mit dem kleineren übereinstimmen, und vergleicht dann die Anzahl der OTUs, die jeder meldet.

Standardverfahren zum Generieren von Verdünnungskurven aus Next-Generation-Sequencing-Daten

Ben S.

CKM

Eli Korvigo

Ben S.

Galen

Antworten (1)

Joe Healey

Tool zum Nukleotid-Alignment mit allen Nukleotid-Codes (zB R, Y, W, S, etc.)?

Irgendein Werkzeug, um ganze Genomsequenzdaten mit einem anderen Genom abzugleichen und Exonregionen eine höhere Note zu geben?

Entwerfen Sie beliebige degenerierte Primer (mit unverbindlichen Kriterien)

Referenzsequenz zur Definition von Einzelnukleotid-Polymorphismen

Der Versuch, das große Ganze hinter der DNA-Sequenzierung, dem Alignment und der Suche zu verstehen

Suchen Sie nach einer Zieldatenbank für Krebsmedikamente, um die Sequenzierung der Tumor-DNA von Patienten zu steuern

Marker-Validierung unter Verwendung von Transkriptom- und genomischen Sequenzen, die von einer einzelnen Zelle stammen

chimäre Sequenzen [geschlossen]

Empfohlener Sequenz-Clustering-Algorithmus für Transkriptomdaten

Wie interpretiert man die von Clustal Omega erstellte prozentuale Identitätsmatrix?