Wie wird die Wahrscheinlichkeit für das Auftreten einer Sequenz bei BLAST berechnet?

Wie groß ist die Wahrscheinlichkeit, dass eine bestimmte Nukleotid-/Aminosäuresequenz in der gesamten Datenbank vorkommt, in der BLAST sucht? Wie wird diese Wahrscheinlichkeit berechnet?

Antworten (1)

Gemäß der BLAST-Dokumentation wird eine Statistik des lokalen Sequenzabgleichs durchgeführt, wenn Datenbanksuchen durchgeführt werden

indem die Datenbank als eine einzelne lange Sequenz der Länge N behandelt wird.

N ist also eine Summe aller Sequenzen mit unterschiedlichen Größen aus einer gegebenen Datenbank.

Die zugrunde liegende Annahme ist die

Es ist a priori wahrscheinlicher, dass eine Abfrage mit einer langen als mit einer kurzen Sequenz verwandt ist, da lange Sequenzen oft aus mehreren unterschiedlichen Domänen bestehen.

Um die Wahrscheinlichkeit zu berechnen, müssen wir ein Bewertungsschema auswählen (für ein Beispiel ohne Gap: Wählen Sie eine Fehlanpassungsstrafe), das uns für eine Abfragesequenz einen statistisch signifikanten Wert liefert S . Erwartete Anzahl von Ausrichtungen mit einer Punktzahl von mindestens S folgt der Gumbel-Extremwertverteilung:

E = K M N e λ S

wobei m die Abfragelänge ist, N = N Und K Und λ sind Verteilungsparameter.

Auch hier wäre die Wahrscheinlichkeit, mindestens eine solche Seq zu finden, laut Dokumenten und ihren Referenzen P = 1 e E ( N ) , Wo E ( N ) ist E-Nummer für verkettete N-Sequenz und Abfragesequenz.