Bewertungssequenz gegen Positionsgewichtungsmatrix

Ich habe eine Gewichtsmatrix der Länge 20 x 15 (Aminosäuren x Sequenzpositionen). Jedes Element meiner Gewichtsmatrix ist eine relative Wahrscheinlichkeit

Wenn ich eine Sequenz habe, die "AAPGTGASMHSGLLW" sagt, wie würde ich sie gegen die Matrix bewerten? Ich habe versucht, das Produkt der Wahrscheinlichkeiten zu nehmen, die der Matrix entsprechen, aber am Ende habe ich eine wirklich kleine Zahl

Irgendwelche Ideen?

Bearbeiten:

Betrachten Sie die einfache Matrix:

    1    2   3     4
A 0.3 0.90 0.5 0.0001
B 0.2 0.05 0.4 0.2
C 0.5 0.05 0.1 0.8

Die beste Übereinstimmung ist mit einer Punktzahl von:

CAAC = 0.5 * 0.9 * 0.5 * 0.8 = 0.18

Wenn Sie den ersten Buchstaben in ein B anstelle von C ändern

Sie erhalten ein Match mit einer Punktzahl von:

BAAC = 0.2 * 0.9 * 0.5 * 0.8 = 0.072

Was ein großer Unterschied für eine so kleine Änderung ist ... Das ist bei meiner größeren Matrix noch schlimmer, da die Punktzahl leicht von kleinen Wahrscheinlichkeiten beeinflusst wird

Vielleicht ist Ihre Sequenz eine schlechte Übereinstimmung?
Ich habe meine Frage mit einem Beispiel bearbeitet. Siehe oben ^

Antworten (2)

Die Wahrscheinlichkeiten stimmen. Sie müssen das Produkt nehmen (im Lograum entspricht dies der Summe). Der Grund, warum die Wahrscheinlichkeit klein aussieht, ist nur, dass Sie vielleicht denken, dass die Punktzahl nahe bei 1 liegen sollte. Dies ist jedoch nicht der Fall. Um eine Punktzahl von 1 zu erhalten, muss der PWM an allen Positionen 1/0/0/0 haben und eine perfekte Übereinstimmung erzielen.

Womit soll man also vergleichen? Was die Leute normalerweise tun, ist, dies mit einer Hintergrundverteilung zu vergleichen, wobei die einfachste gleichmäßig ist, sodass die PWM überall 0,25 beträgt. Für Ihr Beispiel beträgt die Punktzahl in diesem Fall 0,25 ^ 4 = ~ 0,004, und dies sollten Sie zufällig erwarten.

Aus diesem Grund betrachten die Leute normalerweise das Verhältnis zwischen der Punktzahl des PWM relativ zur Punktzahl für das Hintergrundmodell (und nehmen normalerweise den log2 davon), was in Ihrem Fall 0,18 / 0,004 = ~ 46 ist, also die Sequenz, die Sie erhalten haben ist 46 Mal mehr als Sie zufällig erwarten würden! Und für Ihr zweites Beispiel 0,072/0,004 = ~18-mal mehr als erwartet, also immer noch hoch.

Konzeptionell vergleichen Sie zwei probabilistische Modelle, Ihr PWM und ein Hintergrund-PWM, und vergleichen die Wahrscheinlichkeit, Ihre beobachtete Sequenz gemäß jedem von ihnen zu erhalten. Dies ist im Allgemeinen ein gängiger Ansatz zum Vergleichen probabilistischer Modelle, auch wenn sie komplizierter sind.

Vielen Dank für diese ausführliche Antwort! Ich versuche, einen Wert zwischen 0 und 1 zu erreichen (dh eine Wahrscheinlichkeit). Ich dachte darüber nach, das Verhältnis der Punktzahl zur besten Übereinstimmung zum PWM zu nehmen. Ich vermute nach dem, was Sie gerade erklärt haben, dass ich für die Sequenzpunktzahl und die beste Punktzahl durch 0,004 teilen müsste. Verwenden Sie also die Punktzahl von BAAC: (0,072/0,004)/(0,18/0,004)? Würde das funktionieren?
Wenn ich reale Hintergrundwahrscheinlichkeiten habe (dh aus einer großen Datenbank bestimmt), würde ich dann einfach das Produkt von allem nehmen?
@Omar In Bezug auf die Normalisierung der Punktzahl zwischen 0 und 1 können Sie die Punktzahl so normalisieren, wie Sie es vorgeschlagen haben (beachten Sie, dass sich die Wahrscheinlichkeit des Hintergrundmodells aufhebt, sodass Sie sie nicht benötigen). Die Interpretation wird dann anders sein, da sie Ihnen nichts darüber aussagt, wie wahrscheinlich es ist, dass Sie Ihre Sequenz zufällig finden. Ich denke, es hängt davon ab, wofür Sie die Partituren verwenden möchten. Beachten Sie, dass, solange Sie alle Ihre Sequenzen durch eine konstante Punktzahl dividieren, sei es der Hintergrund oder die höchste Wahrscheinlichkeit, die Verhältnisse zwischen den Punktzahlen verschiedener Sequenzen beibehalten werden.
@Omar in Bezug auf Hintergrundmodelle: Wenn Sie keinen einheitlichen Hintergrund verwenden und Vorhersagen zu einem bestimmten Organismus treffen, wäre es sinnvoll, den A / C / G / T-Prozentsatz des gesamten Genoms zu berechnen und diesen als Hintergrundmodell zu verwenden , dh PWM mit der gleichen Länge wie Ihr PWM von Interesse, nur dass alle Positionen die gleichen genomischen Wahrscheinlichkeiten haben.
Vielen Dank. Ich verwende Aminosäuresequenzen, also würde das Hintergrundmodell (1/20) ^ 15 dann wohl sein. Ich stoße auf das Problem, wenn ich das Produkt meiner Punktzahl durch das Produkt der besten Punktzahl dividiere, da beides sehr kleine Zahlen sind: zum Beispiel 10^-19 / 10^-12 = 10^-7, was tatsächlich zwischen 0 und liegt 1, aber es gibt mir kein Gefühl dafür, wie ähnlich es den Besten ist. Was ich erreichen möchte, ist, wie gut ein Peptid zu einem PWM passt (im Bereich von 0 bis 1). Macht das Sinn? Schätzen Sie die Hilfe
@Omar Da die Zahlen sehr klein sind, können Sie mit ihren Protokollen arbeiten (dann müssen Sie natürlich die Division in Subtraktion ändern). Abgesehen davon verstehe ich immer noch nicht, warum Sie denken, dass die Zahlen "keinen Sinn ergeben". Wie ich bereits erklärt habe, kann 10^-19 entweder hoch oder niedrig sein, je nachdem, womit Sie vergleichen.
Nun, ich sehe, wie die Zahlen jetzt Sinn machen. Aber mein Problem besteht eher darin, meine Zahlen auf eine Skala von 0 bis 1 zu bringen, damit ich einen Grenzwert (vielleicht 0,8?) anwenden kann, um Peptide nach denen zu filtern, die im Vergleich zur besten Übereinstimmung besser binden. Ich sehe, wie 10^-19 / 10^-12 mir eine Zahl zwischen 0 und 1 geben würde. Wenn ich log2(10^-19 / 10^-12) würde, würde ich -23 bekommen. Was im Wesentlichen bedeutet, dass die Wahrscheinlichkeit, dass meine Sequenz auftritt, 23-mal geringer ist als bei den besten. Aber mein Problem besteht darin, diesen Wert einer Wahrscheinlichkeit von 0-1 zuzuordnen

Laut [dieser Seite][1] sollten Sie die Summe und nicht das Produkt nehmen:

Sobald ein Profil aus einem Satz funktionell verwandter Sites abgeleitet wurde, kann das Profil verwendet werden, um eine Abfragesequenz auf das Vorhandensein potenzieller Sites zu scannen. Normalerweise lässt man ein Fenster von der Länge der Matrix entlang der Sequenz laufen und summiert die Koeffizienten aus der Matrix, die jedem Nukleotid an jeder Position in der Fenstersequenz entsprechen. Formal wird die Punktzahl einer Matrix M für eine Stelle s der Länge l (s = s1, ... , sl und sk ist eines von {A, C, G, T}) berechnet als

m s = j = 1 l M s l j

Ich empfehle Ihnen dringend, den Rest der Seite zu lesen, der Autor Roderic Guigó ist eine Autorität auf diesem Gebiet.

Er geht davon aus, dass er mit Msij das Protokoll (Frequenz/Hintergrund.Frequenz) meint. Ich habe die Häufigkeitsmatrix nicht. Nur die Wahrscheinlichkeiten.
Es sollte keinen Unterschied machen, die Punktzahl für die Sequenz sollte immer noch die Summe der Punktzahlen an jeder Position sein.
@terdon tatsächlich macht es einen Unterschied, in Wahrscheinlichkeiten ist es ein Produkt, aber im Log-Raum ist es mathematisch äquivalent zur Summe ...
@Bitwise, ich sage nur, dass die Summe immer noch ausreicht, um das Match zu erzielen. Diese Summe ist natürlich keine Wahrscheinlichkeit, sondern wird im Bereich der höchsten Sequenzähnlichkeit maximiert. Auf jeden Fall ist Ihre Antwort viel besser und Sie kennen sich mit dem Thema eindeutig besser aus als ich, daher werde ich den Punkt nicht bestreiten.
@terdon nicht streiten, es ist nur wichtig zu korrigieren, damit die Informationen klar sind. Stellen Sie sich eine PWM vor, die an erster Position A mit Wahrscheinlichkeit 1 und an zweiter Position C mit Wahrscheinlichkeit 1 hat. Die Sequenz AA hat eine Wahrscheinlichkeit von null, diese Sequenz (1 * 0) zu binden, aber die Summe ergibt 1, was die Hälfte ist maximale Punktzahl und damit eindeutig falsch. PWM ist ein probabilistisches Modell der Bindungsaffinität, daher muss es als Wahrscheinlichkeit manipuliert werden.