Datensätze ausgerichteter Nukleotidsequenzen [geschlossen]

Wo finde ich einige Datensätze mit ausgerichteten Nukleotidsequenzen? Und was soll ich über die Genauigkeit der Ausrichtungen dort annehmen?

(Ich möchte solche Datensätze zum Trainieren des Ausrichtungsmodells verwenden, an dem ich arbeite. Insbesondere, um mir zu helfen, eine Schätzung einiger Parameter zu erhalten, wie z. B. die Häufigkeit einzelner nt INDEL an einigen Orten.)

Was möchten Sie mit diesen ausgerichteten Sequenzen tun? Algorithmen testen? Eigentlich ist deine Frage etwas unklar.
Ich möchte einen solchen Datensatz für das Training verwenden, dh um mir zu helfen, einige Parameter für das Alignment-Tool, an dem ich arbeite, abzuleiten. Danke für deinen Kommentar; Ich werde meine Frage bearbeiten, um sie zu verdeutlichen.
Ich stimme @Chris zu! Meinen Sie, ob dem Alignment selbst aufgrund des verwendeten Algorithmus vertraut werden kann oder ob den Sequenzen selbst vertraut werden kann? Machen Sie sich Sorgen, dass die halbkonservierten Sequenzen je nach verwendetem Algorithmus unterschiedlich ausgerichtet werden? Informationen zu verschiedenen Ausrichtungsalgorithmen finden Sie in diesem Beitrag ( biology.stackexchange.com/questions/20075/… ). Ich könnte völlig falsch liegen, aber mehrfache Ausrichtung und halbkonservierte Sequenzen sind meistens ein Problem für AA, nicht für Nukleotide, da sie entweder übereinstimmen oder nicht
Danke für deinen Kommentar. Die Aminosäureausrichtung würde für meinen Zweck nicht funktionieren (glaube ich), weil ich versuche, die Wahrscheinlichkeit eines einzelnen nt INDEL an einem bestimmten Ort abzuleiten.
Dem Alignment muss also in dem Sinne vertraut werden, dass die durch das Alignment vorhergesagten Nukleotid-INDELs korrekt sind.
Nun, Indels werden von Ihrem Sequenzer gelesen. Es gibt Maschinenfehler und Fehler bei der Probenvorbereitung. Sie müssen in Ihrer Maschine Steuerungen einrichten und Ihr Set trainieren. Ich habe Ihre Frage jedoch nicht wirklich verstanden.
Ich habe deinen Kommentar nicht wirklich verstanden, aber das liegt wahrscheinlich daran, dass ich relativ neu auf dieser Welt bin. Was ich versuche zu tun: Ein Paar ausgerichteter nt-Sequenzen kann Regionen haben, die konserviert sind, es kann auch Insertionen/Deletionen haben. Diese Insertionen/Deletionen können vollständige Codons sein, aber es kann auch Insertionen/Deletionen einzelner Nukleotide geben (Habe ich soweit recht?). Mein Ziel aus einem Datensatz ausgerichteter nt-Sequenzen ist es, diese Einfügungen/Löschungen zu untersuchen (und daraus Parameter für das Ausrichtungstool abzuleiten, an dem ich arbeite).
@AnasElghafari .. Ich würde vorschlagen, dass Sie ein Diagramm verwenden, um Ihre Frage zu verdeutlichen.
Okay, vergessen wir das Geschäft mit dem „Goldstandard“ und „absolut korrekt“. Ich habe die Frage so bearbeitet, dass ich jetzt nur nach den Datensätzen ausgerichteter nt-Sequenzen frage.
Hey Leute, ich habe meine Frage in etwas geändert, das - so hoffe ich - klarer ist. Können Sie bitte die Sperre aufheben?
Was meinen Sie mit ausgerichteten Nukleotidsequenzen: paarweise Ausrichtung oder MSA?
Pairwise würde für meine Zwecke ausreichen.
Es gibt einige manuell kuratierte HIV-Alignments bei LANL . HIV ist in der Länge ziemlich variabel, daher finden Sie in diesen Ausrichtungen viele Indels.

Antworten (1)

Sie können das 46-Wege-Multiz-Alignment im UCSC-Genom-Browser finden , es befindet sich im Teil der vergleichenden Genomik und ist als "cons 46-way" gekennzeichnet, was ein Genom-Alignment von 46 Wirbeltierarten ist. Sie können Daten über ihren Genom-Browser auf der Website verwenden oder hier Informationen zum Download erhalten .

Wenn Sie an paarweisen Ausrichtungen interessiert sind, kenne ich keine Datenbank für paarweise Ausrichtungen, aber tatsächlich benötigen Sie keine. Sie können in der NCBI-Nukleotiddatenbank nach Nukleotidsequenzen suchen und sie mit BLAST auf deren Website ausrichten . BLAST ist vielleicht das gebräuchlichste Werkzeug für paarweise Alignments und auch für Datenbank-Alignment-Suchen, bei denen eine einzelne Abfragesequenz in einer Datenbank von Sequenzen nach Übereinstimmungen durchsucht wird. Wenn Sie eine große Anzahl von Ausrichtungen durchführen möchten, können Sie BLAST auf Ihren Computer herunterladen, um sie schneller durchzuführen.