Wie kann ich die Positionsgewichtungsmatrizen meiner DNA-Motive neu formatieren?

Ich arbeite mit einer Reihe von DNA-Motiven, die als potenzielle regulatorische Motive (zB Transkriptionsfaktor-Bindungsstellen) vorhergesagt werden. Die Motive gehören zu mehreren Arten, und ich wollte diese Motive über ihre Positionsgewichtungsmatrizen (PWMs) (auch bekannt als PSSMs) gruppieren, um ähnliche Motive in Gruppen zusammenzufassen.

Es gibt ein Tool namens MATLIGN ( Website hier ), das das tut, was ich brauche, aber ihr erforderliches Format für die PWMs unterscheidet sich von dem, was ich habe, behaupten sie:

"Matrizen müssen im Frequenzmatrixformat vorliegen (nur ganze Zahlen sind akzeptabel)"

Das Problem ist, dass meine PWM-Matrizen keine ganzen Zahlen, sondern Dezimalzahlen haben. z.B:

     A        C        G        T
1    0.000000 1.000000 0.000000 0.000000
2    1.000000 0.000000 0.000000 0.000000
3    0.000000 0.000000 1.000000 0.000000
4    0.000000 0.421755 0.000000 0.578245
5    0.289407 0.000000 0.282556 0.428038

Mit anderen Worten, anstelle der Dezimalwerte, die ich in meiner Matrix habe, brauche ich ganzzahlige Zahlen. Könnte jemand vorschlagen, was ich tun kann? Müsste ich künstliche "Pseudo-Zählungen" erstellen?

Könnte es so einfach sein, dass sie die Anzahl der Nukleotidvorkommen (die Häufigkeit) anstelle von Proportionen wollen (z. B. Ihre Reihe 5 als (mit n = 60): 17 0 17 26)? Woher kommen Ihre Zahlen - ich nehme an, Sie haben Zählungen als Rohdaten, um die Anteile zu berechnen? Wohlgemerkt, ich habe überhaupt keine Erfahrung mit diesen speziellen Methoden.
Danke @fileunderwater für deinen Kommentar. Das Problem ist, dass mir die Rohdaten nicht zur Verfügung stehen, was ich habe, sind die High-Level-Ausgaben, die das Programm generiert hat. Ich nehme an, dass diese Software die gesamten ganzzahligen Zählungen benötigt, da die Proportionen konstant bleiben, egal wie groß die Summe ist.
ok, dann haben Sie ein Problem, da es keine Möglichkeit gibt, die Fehlerquote der Proportionen zu kennen. Um jedoch Zahlen zu erhalten, sollten diese Anteile einfach mit der Anzahl der in die Studie einbezogenen Bindungsstellen multipliziert werden. Haben Sie diese Informationen nicht (z. B. die Anzahl der analysierten Sequenzen)?
brillant! ICH TUE! Darauf solltest du eine Antwort geben! Danke schön
Warum nicht einfach alles mit 10 multiplizieren? Die PWM ist immer noch korrekt, da ihre Werte relativ zueinander sind, Sie machen einfach 1.00in 10und 0.28in 28usw.
Hallo @terdon, ich war sehr versucht, das zu tun, bevor die Antwort von fileunderwater kam. Es stellte sich heraus, dass er Recht hatte, ich fand schließlich in meinem Datensatz eine "mysteriöse" Variable namens "nsites". Nachdem ich das Kleingedruckte der Dokumente gelesen habe, ist nsites die Zahl, mit der ich multiplizieren sollte, da es die Anzahl der DNA-Regionen ist, unter denen das Motiv erstellt wurde
Ja, seine Lösung ist sauberer, aber ich bezweifle, dass es einen Unterschied geben wird. Denken Sie daran, dass PWMs relativ sind, also sollte das Multiplizieren mit irgendetwas wirklich in Ordnung sein.
@terdon Wie ich geschrieben habe, bin ich mit diesem Programm/diesen Methoden nicht vertraut, aber ich bin davon ausgegangen, dass die Zählungen in der Analyse verwendet wurden, um festzustellen, welches Vertrauen Sie in die Proportionen haben können (dh mehr Vertrauen in 33% von 40/120 als 3/9). Aber Sie könnten Recht haben, dass es in diesem Fall keinen Unterschied macht.
Ich kenne dieses Programm auch nicht, aber PWMs sind im Allgemeinen immer relativ. Was Sie erhalten, ist ein Wert, der angibt, wie oft ein bestimmter Rest an einer bestimmten Position gefunden wird. Das Multiplizieren mit einem beliebigen Wert sollte das Ergebnis in keiner Weise beeinflussen, solange Sie alle Werte multiplizieren. Grundsätzlich bedeutet 1, dass Sie diesen Rest immer an dieser Position haben. Wenn Sie beispielsweise mit 100 multiplizieren, können Sie sie als Prozentsätze behandeln. Aber ja, die Implementierungen können variieren, je nachdem, womit Sie sie füttern.

Antworten (1)

Was Sie also brauchen, sind Ihre Daten, ausgedrückt als Anzahl statt als Proportionen. Auch wenn Sie die Matrix der Zählungen nicht als Rohdaten haben, müssen diese Anteile nur mit der Gesamtzahl der in der Studie verwendeten Bindungsstellen (z. B. der Anzahl der analysierten Sequenzen) multipliziert werden, um die Zählungen zu erhalten (seit Anteil = Anzahl/Gesamtzahl der Bindungsstellen). Irgendwo sollten Sie diese Informationen haben.

@hello_there_andy: Tatsächlich stand mir diese fehlende Information zur Verfügung, sie kam in Form einer Variablen namens nsites , die der Gesamtzahl der DNA-Sites entspricht, aus denen die PWM generiert wurde.