Was macht DNA-Sequenzen aus biologischer Sicht am unterschiedlichsten/erkennbarsten? [Duplikat]

Wir können den Betragsunterschied zwischen zwei verschiedenen Zeichenfolgen/Zeichenfolgen ziemlich einfach quantifizieren. Wenn wir zum Beispiel die Wörter trebuchet und trebucket nehmen , können wir sagen, dass sie eine Levenshtein-Distanz von 1 haben (nur ein Zeichenwert der Differenz).

Aus sprachlicher Sicht ist diese Distanz sehr auffällig, während der Unterschied zwischen Kompliment und Komplement viel geringer ist. Obwohl beide Paare jeweils nur eine Bearbeitung voneinander entfernt sind, sind nicht alle Unterschiede gleichermaßen unterscheidbar.

Was ist das biologische Äquivalent dazu, wenn es um DNA-bindende Proteine ​​und RNAs geht ? Wie identifiziere ich, welche DNA-Sequenzen besser erkennbar voneinander sind? Wenn wir zum Beispiel ein DNA-bindendes Protein nehmen, das die Sequenz TGCCTCGAA erkennt, ist es wahrscheinlicher, dass es A GCCT G GAA falsch erkennt als TGCC AG GAA (oder umgekehrt) als seine Zielsequenz?

Das wird von einem nukleinsäurebindenden Protein zum anderen variieren. Denken Sie daran, dass DNA und RNA nicht einfach Buchstabenfolgen sind, sondern dass es Sekundärstrukturen sowie grundlegendere chemische Wechselwirkungen zwischen benachbarten oder weiter entfernten Basen geben kann – siehe RNA-Haarnadeln als Beispiel. All dies verleiht dem erkannten Teil der Nukleinsäure eine "Form", die über die Bindungskapazität genauso viel oder möglicherweise sogar mehr informieren kann als die Primärsequenz allein.
@MattDMo Das ist sicherlich nicht überraschend, aber es scheint mir, dass diese Variation einen Parameter haben sollte. Beispielsweise ist das Wechseln einer einzelnen Base in einer Sequenz von einem Purin zu Pyrimidinen möglicherweise besser unterscheidbar als zu dem anderen Purin.

Antworten (2)

Dies ist noch keine Frage mit einer wirklich gut akzeptierten Antwort und taucht ziemlich oft auf, zB in Studien über Bevölkerungsvariationen in Transkriptionsfaktormotiven.

Normalerweise approximieren wir die Sequenzpräferenzen eines DNA-bindenden Proteins mit einer Positionsgewichtsmatrix . Eine Gewichtsmatrix gibt Ihnen eine Punktzahl für zwei Sequenzen, sodass das einfachste Mittel zur Quantifizierung der relativen Bindungsstärken für zwei Sequenzen darin besteht, diese Punktzahlen zu vergleichen . Sie könnten beispielsweise auch die relativen Chancen , die Punktzahlen zu erhalten, unter einer bestimmten Hintergrundverteilung der Punktzahlen vergleichen, die zwischen verschiedenen Faktoren wohl besser vergleichbar wäre.

Der PWM-Score (und andere Mittel zur Beschreibung der Sequenzspezifität) sind jedoch nur eine Annäherung an das, was Sie wirklich interessiert, nämlich die mit der Interaktion verbundene Bindungsenergie. Wenn Sie detaillierte experimentelle Beweise dafür haben, wie das Protein bindet, können Sie diese verwenden, und es gibt einige Artikel, die Modelle zur Annäherung an PWM-Werte erstellen. Die Realität ist jedoch, dass Sie aufgrund der molekularen Verdrängung und der vielen anderen Faktoren, die auf der Chromatinfaser vorhanden sein werden, immer nur ungefähr abschätzen können, was in der Zelle passiert. Daher wird häufig der Unterschied in den PWM-Werten verwendet.

Die Vorhersage der Auswirkungen einer bestimmten Änderung auf eine nichtkodierende DNA-Sequenz ist ein schwieriges Problem. Manchmal erhalten Sie eine anständige Annäherung, aber am Ende versuchen Sie, Biochemie von Grund auf zu betreiben, und wir sind noch nicht so weit.

DNA ist eine Chemikalie, und daher werden ihre Wechselwirkungen durch ihre Form bestimmt. Es gibt keine Möglichkeit, sich eine DNA-Sequenz anzusehen und alle Auswirkungen zu kennen, die die Änderung eines Buchstabens auf seine Form haben wird. Ich könnte Ihnen sagen, dass das Ändern der ersten beiden oder letzten beiden Buchstaben eines Introns mit hoher Wahrscheinlichkeit eine Spleißstelle zerstört, aber Sie können in vielen anderen Situationen keine harten und schnellen Vorhersagen über die DNA-Bindung treffen.