Ich arbeite mit einer Reihe von DNA-Motiven, die als potenzielle regulatorische Motive (zB Transkriptionsfaktor-Bindungsstellen) vorhergesagt werden. Die Motive gehören zu mehreren Arten, und ich wollte diese Motive über ihre Positionsgewichtungsmatrizen (PWMs) (auch bekannt als PSSMs) gruppieren, um ähnliche Motive in Gruppen zusammenzufassen.
Es gibt ein Tool namens MATLIGN ( Website hier ), das das tut, was ich brauche, aber ihr erforderliches Format für die PWMs unterscheidet sich von dem, was ich habe, behaupten sie:
"Matrizen müssen im Frequenzmatrixformat vorliegen (nur ganze Zahlen sind akzeptabel)"
Das Problem ist, dass meine PWM-Matrizen keine ganzen Zahlen, sondern Dezimalzahlen haben. z.B:
A C G T
1 0.000000 1.000000 0.000000 0.000000
2 1.000000 0.000000 0.000000 0.000000
3 0.000000 0.000000 1.000000 0.000000
4 0.000000 0.421755 0.000000 0.578245
5 0.289407 0.000000 0.282556 0.428038
Mit anderen Worten, anstelle der Dezimalwerte, die ich in meiner Matrix habe, brauche ich ganzzahlige Zahlen. Könnte jemand vorschlagen, was ich tun kann? Müsste ich künstliche "Pseudo-Zählungen" erstellen?
Was Sie also brauchen, sind Ihre Daten, ausgedrückt als Anzahl statt als Proportionen. Auch wenn Sie die Matrix der Zählungen nicht als Rohdaten haben, müssen diese Anteile nur mit der Gesamtzahl der in der Studie verwendeten Bindungsstellen (z. B. der Anzahl der analysierten Sequenzen) multipliziert werden, um die Zählungen zu erhalten (seit Anteil = Anzahl/Gesamtzahl der Bindungsstellen). Irgendwo sollten Sie diese Informationen haben.
@hello_there_andy: Tatsächlich stand mir diese fehlende Information zur Verfügung, sie kam in Form einer Variablen namens nsites , die der Gesamtzahl der DNA-Sites entspricht, aus denen die PWM generiert wurde.
Dateiunterwasser
hallo_da_andy
Dateiunterwasser
hallo_da_andy
Terdon
1.00
in10
und0.28
in28
usw.hallo_da_andy
Terdon
Dateiunterwasser
Terdon