Wir können den Betragsunterschied zwischen zwei verschiedenen Zeichenfolgen/Zeichenfolgen ziemlich einfach quantifizieren. Wenn wir zum Beispiel die Wörter trebuchet und trebucket nehmen , können wir sagen, dass sie eine Levenshtein-Distanz von 1 haben (nur ein Zeichenwert der Differenz).
Aus sprachlicher Sicht ist diese Distanz sehr auffällig, während der Unterschied zwischen Kompliment und Komplement viel geringer ist. Obwohl beide Paare jeweils nur eine Bearbeitung voneinander entfernt sind, sind nicht alle Unterschiede gleichermaßen unterscheidbar.
Was ist das biologische Äquivalent dazu, wenn es um DNA-bindende Proteine und RNAs geht ? Wie identifiziere ich, welche DNA-Sequenzen besser erkennbar voneinander sind? Wenn wir zum Beispiel ein DNA-bindendes Protein nehmen, das die Sequenz TGCCTCGAA erkennt, ist es wahrscheinlicher, dass es A GCCT G GAA falsch erkennt als TGCC AG GAA (oder umgekehrt) als seine Zielsequenz?
Dies ist noch keine Frage mit einer wirklich gut akzeptierten Antwort und taucht ziemlich oft auf, zB in Studien über Bevölkerungsvariationen in Transkriptionsfaktormotiven.
Normalerweise approximieren wir die Sequenzpräferenzen eines DNA-bindenden Proteins mit einer Positionsgewichtsmatrix . Eine Gewichtsmatrix gibt Ihnen eine Punktzahl für zwei Sequenzen, sodass das einfachste Mittel zur Quantifizierung der relativen Bindungsstärken für zwei Sequenzen darin besteht, diese Punktzahlen zu vergleichen . Sie könnten beispielsweise auch die relativen Chancen , die Punktzahlen zu erhalten, unter einer bestimmten Hintergrundverteilung der Punktzahlen vergleichen, die zwischen verschiedenen Faktoren wohl besser vergleichbar wäre.
Der PWM-Score (und andere Mittel zur Beschreibung der Sequenzspezifität) sind jedoch nur eine Annäherung an das, was Sie wirklich interessiert, nämlich die mit der Interaktion verbundene Bindungsenergie. Wenn Sie detaillierte experimentelle Beweise dafür haben, wie das Protein bindet, können Sie diese verwenden, und es gibt einige Artikel, die Modelle zur Annäherung an PWM-Werte erstellen. Die Realität ist jedoch, dass Sie aufgrund der molekularen Verdrängung und der vielen anderen Faktoren, die auf der Chromatinfaser vorhanden sein werden, immer nur ungefähr abschätzen können, was in der Zelle passiert. Daher wird häufig der Unterschied in den PWM-Werten verwendet.
Die Vorhersage der Auswirkungen einer bestimmten Änderung auf eine nichtkodierende DNA-Sequenz ist ein schwieriges Problem. Manchmal erhalten Sie eine anständige Annäherung, aber am Ende versuchen Sie, Biochemie von Grund auf zu betreiben, und wir sind noch nicht so weit.
DNA ist eine Chemikalie, und daher werden ihre Wechselwirkungen durch ihre Form bestimmt. Es gibt keine Möglichkeit, sich eine DNA-Sequenz anzusehen und alle Auswirkungen zu kennen, die die Änderung eines Buchstabens auf seine Form haben wird. Ich könnte Ihnen sagen, dass das Ändern der ersten beiden oder letzten beiden Buchstaben eines Introns mit hoher Wahrscheinlichkeit eine Spleißstelle zerstört, aber Sie können in vielen anderen Situationen keine harten und schnellen Vorhersagen über die DNA-Bindung treffen.
MattDMo
KreisQuadrat
WYSIWYG