Wie interpretiert man die einfache Sequenzwiederholung (SSR) auf der kodierenden Sequenz, aber nicht die verwandte Proteinsequenz?

Ich habe mit dem SSRLocator-Programm einige SSR-Wiederholungen auf dem interessierenden Gen vorhergesagt, wobei das Ergebnis eine Frage für mich aufwirft. Bitte beachten Sie die folgende Sequenz, die Teil der interessierenden Gensequenz (kodierende Sequenz) ist:

GGTGATGAGGTAGAGGAAGAGGCTGAGGAACCCTACGAAGAAGCCACAGA GAGAACCACCAGCATTG CCACCACCACCACCACCACCA CAGAGTCTGTGG AAGAGGTGGTTCGAGAGGTGTGCTCTGAACAAGCCGAGACGGGGCCGTGC

Das Programm meldete das CCA-Motiv als Wiederholung; Da sich diese Wiederholung auf CDS befindet, erwartete ich, die verwandte Aminosäurespur (Prolin) zu finden, aber ich beobachtete die Threoninspur in der entsprechenden Proteinsequenz. Threonin wird von ACC codiert. Jetzt würde ich gerne wissen, welches Motiv wirklich ein Rapport ist, CCA oder ACC. Ist es möglich, CCA als Wiederholung zu betrachten, aber nur auf Transkriptebene, nicht als Proteinsequenz, oder die echte Wiederholung ist ACC und die Software hat hier nicht gut funktioniert? Bitte teilen Sie mir Ihre diesbezügliche Meinung mit.

Vielen Dank für Ihre Hilfe und Teilnahme.

Antworten (1)

SSR-Suchwerkzeuge haben im Allgemeinen keine Ahnung von CDS: Sie betrachten DNA/RNA-Sequenzen als Zeichenfolgen und suchen nach sich wiederholenden Mustern, sonst nichts. Es ist auch wichtig, sich daran zu erinnern, dass in vielen realen Fällen verschiedene Programme mit unterschiedlichen Einstellungen unterschiedliche Ergebnisse liefern.

[Da man weiß, dass man immer zwei Stränge in der genomischen DNA hat, muss man bedenken, dass auch SSRs in beide Richtungen "gelesen" werden können, so dass für einen Abschnitt die Einheit als oder ACCACCACCangegeben werden kann . Einige Programme melden standardmäßig nach Alphabet sortierte SSR-Einheiten: in diesem Fall. Bei kodierenden Sequenzen ist die Geschichte etwas anders: RNA hat nur einen Strang, dh sie hat eine Richtung, was bedeutet, dass Sie RNA-Sequenzen nicht "umdrehen" können.]ACCGGTACC

mRNA hat nicht nur eine Richtung, sondern kodiert auch für Proteine, wobei die Proteinsequenzen manchmal ihre eigenen sich wiederholenden Muster zeigen. SSRs in mRNA sind meistens Trinukleotide oder mit durch drei teilbaren Einheitslängen und fallen mit den Tandem-Aminosäure-Wiederholungen zusammen. Aus funktioneller Sicht handelt es sich also um eine Wiederholung ACC|ACC|ACC|ACC|ACC|ACC|ACA(beachten Sie, dass das letzte Element ) ist , die für die jeweilige Aminosäurewiederholung ACAkodiert . T|T|T|T|T|T|TUm diese Idee zu formalisieren, suchen Sie nach SSRs in der RNA-Sequenz und in der Proteinsequenz und versuchen, die Überlappung zu finden.

Aus Sicht der DNA-Polymerase [dem Enzym, das die SSR-Länge verändert] handelt es sich um eine perfekte CCACCACCACCACCACCACCAWiederholung: Innerhalb dieser Grenzen neigt das Fragment zum Verrutschen . Aber für ein tatsächliches Schlupfereignis spielt die Einheitsgrenze keine Rolle. Stellen Sie sich vor, die Polymerase "überspringt" eine CACEinheit in der Mitte: CCACCAC[CAC]CACCACCACCA. Das Ergebnis für die Proteinsequenz wird dasselbe sein: minus ein Threonin.

Vielen Dank für Ihre nette Antwort. Da die DNA-Polymerase häufig dazu neigt, die Wiederholungssequenzen zu verschieben, kann die Wiederholungseinheit eine CCA-Einheit sein, wie die Software vorhersagt. Aber wie steht es mit den Situationen, in denen die RNA-Sequenz und verwandte Proteinsequenzen übereinstimmen? Die CAG-Wiederholungseinheit ist eines der berühmten Beispiele, die einen Poly-Glutamin-Abschnitt in der Proteinsequenz erzeugten, der zu einer menschlichen Krankheit wie Hungtingtun führte. Könnten Sie mir bitte helfen, herauszufinden, was passiert ist, wie hier Polymerase-Slippage aufgetreten ist?
Wenn Sie eine wiederholte Region haben, kann ein erneutes Annealing des neu synthetisierten zweiten Strangs ein Priming der DNA-Polymerase an einer anderen Stelle verursachen. Irgendwo in der Mitte ist es nicht mehr möglich zu "sagen", ob die erste Einheit mit C, A oder G begonnen hat. Diese Logik ist beispielsweise in Phobos implementiert : Es kann "alphabetische Normalform, gegeben durch die alphabetisch minimale Zeichenfolge unter allen zyklischen" melden Permutationen der Einheit", dh für SSRs mit den ersten Wiederholungseinheiten AGC, GCAoder CAGes wird gemeldet AGC.
Ja, natürlich. Ich bin jedoch etwas besorgt darüber, wie ich die Wiederholungseinheit in dieser Sequenz melden soll?!
Wie es heißt: "Dieses und jenes Werkzeug identifizierte in dieser Sequenz einen SSR mit der folgenden Trinukleotideinheit: ***, was einem Abschnitt von sieben Threonin-Aminosäuren in der translatierten Sequenz entspricht." Die genaue Formulierung für *** hängt vom Programm ab: SSRLocator meldet „CCA“, Phobos meldet „ACC“. In beiden Fällen können Sie erwähnen, dass die RNA-SSR in Bezug auf die Proteinwiederholung verschoben ist (falls relevant).
Übrigens identifiziert Phobos hier (korrekt) ein SSR mit einer Länge von 22: CCACCACCACCACCACCACCAC.