Ich habe ein paar große OTU-Tabellen mit bakteriellen und viralen Datensätzen. Die Proben sind an verschiedenen Orten und zu verschiedenen Zeiten.
Ich möchte die „Vielfalt“ der Gemeinschaft über die Zeiten hinweg visualisieren, für die ich Daten habe. Es wäre zum Beispiel interessant zu sehen, ob die Diversität der Gemeinschaft in den Sommermonaten ihren Höhepunkt erreicht und in den Wintermonaten abfällt – in einem sich wiederholenden Muster.
Ich bin nicht auf viele Ratschläge oder Literatur gestoßen, die sich mit der Betrachtung der Diversität für große OTU-Datensätze befassen. In Anbetracht der Tatsache, dass die OTUs im Wesentlichen willkürlich sind und dass es Tausende von ihnen gibt, wie lässt sich die Diversität der einzelnen Proben am besten berechnen und visualisieren?
Mit dem veganen Paket auf R ist es ganz einfach, den Shannon/Simpsons-Diversity-Index für einen OTU-Tisch zu berechnen. Können Sie dies einfach auf einer "rohen" Tabelle von OTUs verwenden?
Ich stimme größtenteils der Antwort von @Nathan zu, insbesondere den von ihm angegebenen Referenzen.
Da Shannon
& Simpson
-Indizes schwer zu interpretieren und nicht intuitiv sein können, bevorzuge ich die Verwendung von Hill
Diversities, wie von Nathan vorgeschlagen (die Referenzen von Jost 2006 und 2007 sind großartig, um sich darüber zu informieren). Das Hauptargument ist, dass die Hill-Diversität eine effektive Anzahl von Arten ergibt , die zwischen den Proben vergleichbar sind, und dem Duplikationsprinzip folgt.
Hügeldiversitäten beruhen auf einer einheitlichen Formel (siehe diesen Wikipedia-Artikel ) mit einem Parameter, q
. Steigende Werte für q
entsprechen steigender Gewichtung von Taxahäufigkeiten in der Diversitätsberechnung:
D
mit q=0
berücksichtigt nicht die Taxonhäufigkeit, also nur die Anzahl der Taxa, oderrichness
D
with q=1
ist nicht definiert, wird aber asymptotisch angenähert durch e^H
where H
ist die Shannon-Entropie. D_q1
ist die effektive Anzahl von Arten mit Abundanzgewichten.D
mit q=2
entspricht dem Inverse Simpson
Index ( 1/D_Simpson
). D_q2
wiegt häufiger vorkommende Taxa noch stärker.Man kann einen beliebigen Wert für wählen q
(mit q=1
mit der Grenze e^H
), und der Vergleich von Diversitätsschätzungen für Variieren q
kann Ihnen eine Vorstellung von sample geben evenness
. Die Einstellung q=∞
ergibt die Berger-Parker index
(den Anteil der Individuen in der Stichprobe, die zu den am häufigsten vorkommenden Arten gehören).
Wichtig ist, dass ich für Alpha-Div-Analysen auf (16S/18S-basierten) OTUs immer zuerst Verdünnungskurven und dann Diversitätsschätzungen mit einer gemeinsamen, verdünnten Anzahl von Lesevorgängen pro Probe generieren würde.
Das meiste davon können Sie mit dem R-Paket erledigen vegan
. Das phyloseq
Paket bietet verschiedene Alpha-Div-Schätzungen in einem Befehl, aber keine Hill-Diversity. Ich habe ein paar einfache Funktionen geschrieben, um eine Verdünnung durchzuführen und (verdünnte oder nicht verdünnte) Hügeldiversitäten aus einer OTU-Zähltabellenmatrix zu berechnen:
Das vegan
Paket ist für Ihre Anforderungen geeignet, aber Sie müssen möglicherweise andere verwenden oder Ihre eigenen Funktionen codieren.
Aufgrund von Sequenzierungsverzerrungen sollten Sie den „rohen“ Zahlen Ihrer OTUs nicht vertrauen (es sei denn, Sie haben einen guten Grund dafür – ich bin mir nicht sicher, wie Ihre OTUs erhalten wurden). Vielmehr können Sie erwägen, Ihre Site-by-Arts-Matrix zu relativieren. decostand()
Dies können Sie über die Funktion tun .
Anschließend können Sie die diversity()
Funktionen zur Diversitätsanalyse verwenden; Sie können aber auch in Betracht ziehen, andere Ansätze zur Bewertung der lokalen Vielfalt zu prüfen, wie z. B. auf Verdünnung und Stichproben basierende Ansätze, Artenäquivalente und Hügelzahlen ( Hill 1973 , Gotelli und Colwell 2001 , Jost 2006 , 2007 ). Die Bücher von Magurran und McGill (2011) und Legendre und Legendre (2012) sind äußerst hilfreich.
Remi.b
Remi.b