Wir haben einige Millionen 18S-Reads aus einer bestimmten Umgebung. Die Lesevorgänge wurden in Operational Taxonomic Unit (OTU) geclustert und die OTUs mit einer Referenzdatenbank kommentiert.
Um eine Verdünnungskurve zu erzeugen, ist mein Verständnis, dass man zufällig abtastet liest wo reicht (mit einer gewissen Schrittgröße) von 0 bis zur Gesamtzahl der Lesevorgänge und zählt die Anzahl der OTUs, die bei jeder solchen Unterabtastung beobachtet wurden.
Welche dieser beiden Möglichkeiten, wie sie von Sequenzanalyse-Suiten wie QIIME und mothur implementiert werden, ist Standardpraxis? Welches wäre am besten in der obigen Situation zu verwenden?
Behandeln Sie die ursprünglichen Zuweisungen von Reads zu OTUs als Wahrheit, und zwar beim Resampling liest, zählen Sie einfach die Anzahl der "ursprünglichen" OTUs, die in dieser Unterstichprobe beobachtet wurden.
Gruppieren Sie die unterabgetasteten Reads neu und zählen Sie dann die Anzahl der „neuen“ OTUs in der Unterabtastung.
Mein Gefühl beim Lesen der QIIME-Dokumentation ist, dass Methode 1 der Standard ist, aber ich bin mir nicht sicher. Ich verstehe auch nicht ganz, warum Methode 2 nicht der bessere Weg wäre, obwohl es rechenintensiver wäre.
Ich arbeite eigentlich in derselben Gruppe wie Chris (QIIME-Autor), also hoffe ich, dass dies hilft: Eine Erklärung, die er uns vor einiger Zeit über die Grundlage von Verdünnungskurven gegeben hat, soll nur einen Hinweis darauf geben, ob Ihr Sampling eine gesättigte Vielfalt erreicht. beim Vergleich von 2 ungleichen Proben.
Wenn Sie 2 Proben vergleichen, bei denen Probe x weniger Informationen (Reads/Amplikons usw.) enthält, die dies unterstützen, können Sie nicht sicher sein, dass Sie die gesamte mögliche Vielfalt abgetastet haben.
Daher zeichnen Sie die Anzahl der OTUs, die Sie sehen, für eine zunehmende Anzahl von Lesevorgängen auf. Wenn Sie die Vielfalt sättigen, sollten Sie ein Plateau sehen.
Um die 2 Stichproben mit der „Menge an unterstützenden Daten“ in Einklang zu bringen, die sie haben, sticht man die Daten des größeren Datensatzes nach dem Zufallsprinzip zusammen, sodass sie mit dem kleineren übereinstimmen, und vergleicht dann die Anzahl der OTUs, die jeder meldet.
CKM
Eli Korvigo
Ben S.
Galen