Ich habe eine Gewichtsmatrix der Länge 20 x 15 (Aminosäuren x Sequenzpositionen). Jedes Element meiner Gewichtsmatrix ist eine relative Wahrscheinlichkeit
Wenn ich eine Sequenz habe, die "AAPGTGASMHSGLLW" sagt, wie würde ich sie gegen die Matrix bewerten? Ich habe versucht, das Produkt der Wahrscheinlichkeiten zu nehmen, die der Matrix entsprechen, aber am Ende habe ich eine wirklich kleine Zahl
Irgendwelche Ideen?
Bearbeiten:
Betrachten Sie die einfache Matrix:
1 2 3 4
A 0.3 0.90 0.5 0.0001
B 0.2 0.05 0.4 0.2
C 0.5 0.05 0.1 0.8
Die beste Übereinstimmung ist mit einer Punktzahl von:
CAAC = 0.5 * 0.9 * 0.5 * 0.8 = 0.18
Wenn Sie den ersten Buchstaben in ein B anstelle von C ändern
Sie erhalten ein Match mit einer Punktzahl von:
BAAC = 0.2 * 0.9 * 0.5 * 0.8 = 0.072
Was ein großer Unterschied für eine so kleine Änderung ist ... Das ist bei meiner größeren Matrix noch schlimmer, da die Punktzahl leicht von kleinen Wahrscheinlichkeiten beeinflusst wird
Die Wahrscheinlichkeiten stimmen. Sie müssen das Produkt nehmen (im Lograum entspricht dies der Summe). Der Grund, warum die Wahrscheinlichkeit klein aussieht, ist nur, dass Sie vielleicht denken, dass die Punktzahl nahe bei 1 liegen sollte. Dies ist jedoch nicht der Fall. Um eine Punktzahl von 1 zu erhalten, muss der PWM an allen Positionen 1/0/0/0 haben und eine perfekte Übereinstimmung erzielen.
Womit soll man also vergleichen? Was die Leute normalerweise tun, ist, dies mit einer Hintergrundverteilung zu vergleichen, wobei die einfachste gleichmäßig ist, sodass die PWM überall 0,25 beträgt. Für Ihr Beispiel beträgt die Punktzahl in diesem Fall 0,25 ^ 4 = ~ 0,004, und dies sollten Sie zufällig erwarten.
Aus diesem Grund betrachten die Leute normalerweise das Verhältnis zwischen der Punktzahl des PWM relativ zur Punktzahl für das Hintergrundmodell (und nehmen normalerweise den log2 davon), was in Ihrem Fall 0,18 / 0,004 = ~ 46 ist, also die Sequenz, die Sie erhalten haben ist 46 Mal mehr als Sie zufällig erwarten würden! Und für Ihr zweites Beispiel 0,072/0,004 = ~18-mal mehr als erwartet, also immer noch hoch.
Konzeptionell vergleichen Sie zwei probabilistische Modelle, Ihr PWM und ein Hintergrund-PWM, und vergleichen die Wahrscheinlichkeit, Ihre beobachtete Sequenz gemäß jedem von ihnen zu erhalten. Dies ist im Allgemeinen ein gängiger Ansatz zum Vergleichen probabilistischer Modelle, auch wenn sie komplizierter sind.
Laut [dieser Seite][1] sollten Sie die Summe und nicht das Produkt nehmen:
Sobald ein Profil aus einem Satz funktionell verwandter Sites abgeleitet wurde, kann das Profil verwendet werden, um eine Abfragesequenz auf das Vorhandensein potenzieller Sites zu scannen. Normalerweise lässt man ein Fenster von der Länge der Matrix entlang der Sequenz laufen und summiert die Koeffizienten aus der Matrix, die jedem Nukleotid an jeder Position in der Fenstersequenz entsprechen. Formal wird die Punktzahl einer Matrix M für eine Stelle s der Länge l (s = s1, ... , sl und sk ist eines von {A, C, G, T}) berechnet als
Ich empfehle Ihnen dringend, den Rest der Seite zu lesen, der Autor Roderic Guigó ist eine Autorität auf diesem Gebiet.
Terdon
Omar Wagih