Wie messe ich die genetische Distanz?

Ich bin mir nicht sicher, wie man die genetische Distanz misst. Es scheint viele verschiedene Gleichungen zu geben, und alle, die ich gefunden habe, sind ziemlich alt.

In meinem spezifischen Problem möchte ich sehen, ob sich die Drehung des Kollagens unterscheidet, wenn die Arten unterschiedlich sind. (Ich habe ein Programm, um die Kollagenverdrehung anhand der Aminosäuresequenz vorherzusagen.)

Ich möchte daher einen objektiven Zahlenwert, der meinem Vergleich zugrunde liegt. "Neis genetischer Standardabstand" scheint gut zu sein, aber es ist sehr alt, also habe ich mich gefragt, ob es eine moderne Alternative gibt. Gibt es ein R-Paket oder ähnliches, um es automatisch zu berechnen?

Antworten (2)

Hier gibt es ein paar Antworten, es ist ein wenig unklar, was dem, was Sie wollen, am nächsten kommt.

[bearbeitet, um vollständiger und direkter zu sein]

1) Neis Distanz dient hauptsächlich dem Vergleich von Populationen derselben Art, also sollte es in Ordnung sein, wenn Sie das tun. Ich vermute, dass Sie aufgrund Ihres Beitrags mehr an artenübergreifenden Vergleichen interessiert sind. Natürlich ist die Logik dieselbe, nur die Mathematik ist anders. Für die Divergenz zwischen den Bevölkerungen wird häufig auch Fst (Fixierungsindex) verwendet. Aber wenn Sie ein Sequenz-Alignment oder solche Daten verwenden, um genetische Distanzen zu berechnen, gibt es viele, viele Metriken. Einige von ihnen sind sehr einfach – zum Beispiel könnten Sie die Hamming-Distanz verwenden und einfach die Anzahl der Restunterschiede zwischen jeder Sequenz zählen.

Zur Berechnung dieser Metriken gibt es einen Webserver namens GenePop online, der Fst für Sie berechnet, wenn Sie einen Datensatz anschließen. Ich kenne keine R-Pakete, die diese Dinge berechnen. Ich würde vermuten, dass das Codieren von Funktionen dafür relativ trivial wäre (wenn Sie mit r vertraut sind), wenn Sie sich Wikipedia ansehen.

2) Wenn Sie wirklich zwischen den Arten suchen, könnte ein etwas geeigneterer Ansatz darin bestehen, Ihre Art in einer Phylogenie zu modellieren, anstatt Distanzmethoden zu verwenden (obwohl die beiden versuchen, das gleiche Problem zu lösen). Dafür gibt es viele einfach zu bedienende Online-Programme, zum Beispiel: FastML . Sie können dort einfach eine Seq-Ausrichtung kopieren und einfügen. Nachdem Sie den Baum beispielsweise im Newick-Format haben, gibt es gute Tools zum Visualisieren von Bäumen sowohl online bei iTOL als auch über R mit APE .

APE bietet auch gute Hilfsmittel zur Modellierung phylogenetischer Prozesse, sodass Sie im Prinzip Änderungen in Proteinfaltungen im Laufe der Evolutionszeit direkt modellieren könnten (vorausgesetzt, Sie haben eine aussagekräftige Zusammenfassung der Proteinfaltung, entweder kontinuierlich oder diskret).

Ich habe nicht genug Reputation, um auf weitere der von mir erwähnten Ressourcen zu verlinken, tut mir leid.

Ich habe bereits mit SeaView gearbeitet, um phylogenetische Bäume zu erstellen, aber ich suche nach einem guten numerischen Wert, den ich für einige Datenanalysen (und sehr grundlegendes maschinelles Lernen) verwenden könnte, da die Zeit der Divergenz und das einfache Zählen verschiedener Basen ein bisschen einfach zu sein schien Auf der Suche nach etwas Genauerem ... Ich verwende Aminosäuresequenzen von Kollagen aus PDB. Danke, deine Antwort gibt mir ein paar Hinweise.
ah ich sehe. Meine naive Vermutung ist, dass alle Entfernungsmetriken Ihnen ähnliche Dinge sagen werden. Da Sie jedoch mit verschiedenen Arten arbeiten und eine ausgefeiltere Distanzmetrik wünschen, könnten Sie etwas wie protdist von [phylip] ( evolution.genetics.washington.edu/phylip/doc/protdist.html ) ausprobieren, das verschiedene Substitutionsmodelle hat verfügbar. Auch hier würde ich empfehlen, das Problem phylogenetisch zu modellieren, was in der Praxis bevorzugt wird. Entfernungen können schwierig sein, da Beobachtungen nicht unabhängig sind. Aber wahrscheinlich werden die meisten Methoden dasselbe geben. Viel Glück!

Ich denke, mein Ansatz wäre, einen phylogenetischen Baum zu erstellen und die Spitzen durch Kollagendrehung zu färben. Es gibt mehrere R-Pakete, die dabei helfen, einschließlich APE, ADE4 und poppr. Um einen Stammbaum zu erstellen, berechnen Sie zunächst eine Entfernung. Du hast Nei's erwähnt, und das wird eigentlich immer noch ziemlich häufig verwendet. Ich weiß, dass Sie keine Populationsgenetik betreiben, aber schauen Sie sich dieses Tutorial an: https://grunwaldlab.github.io/Population_Genetics_in_R/Pop_Structure.html. Sie berechnen Gst (im anderen Kommentar erwähnt), sprechen über ein paar verschiedene entfernte Metriken (einschließlich der von Nei), erstellen phylogenetische Bäume und alles in R. Sie färben die Spitzen sogar nach Population - in Ihrem Fall würden Ihre Populationen Seien Sie Arten von Kollagen Twist mit Ihren Proben, die nach Arten benannt sind (Eidechse-1, Eidechse-2, Schimpanse-1, Schimpanse-2 usw.). Sie können die Spitzen auch nach Arten färben und Ihre Proben nach Art der Drehung benennen (vorwärts-1, vorwärts-2, rückwärts-2 usw.). Ich weiß, dass diese Frage alt ist, aber hoffentlich findet jemand anderes, der hier stolpert, diese Antwort hilfreich.