Datensätze ausgerichteter Nukleotidsequenzen [geschlossen]

Question

Datensätze ausgerichteter Nukleotidsequenzen [geschlossen]

Biologie
Bioinformatik
Sequenzanalyse
Sequenz-Ausrichtung

Anas Elghafari

Wo finde ich einige Datensätze mit ausgerichteten Nukleotidsequenzen? Und was soll ich über die Genauigkeit der Ausrichtungen dort annehmen?

(Ich möchte solche Datensätze zum Trainieren des Ausrichtungsmodells verwenden, an dem ich arbeite. Insbesondere, um mir zu helfen, eine Schätzung einiger Parameter zu erhalten, wie z. B. die Häufigkeit einzelner nt INDEL an einigen Orten.)

Chris

Was möchten Sie mit diesen ausgerichteten Sequenzen tun? Algorithmen testen? Eigentlich ist deine Frage etwas unklar.

Anas Elghafari

Ich möchte einen solchen Datensatz für das Training verwenden, dh um mir zu helfen, einige Parameter für das Alignment-Tool, an dem ich arbeite, abzuleiten. Danke für deinen Kommentar; Ich werde meine Frage bearbeiten, um sie zu verdeutlichen.

Behzad Rowshanravan

Ich stimme @Chris zu! Meinen Sie, ob dem Alignment selbst aufgrund des verwendeten Algorithmus vertraut werden kann oder ob den Sequenzen selbst vertraut werden kann? Machen Sie sich Sorgen, dass die halbkonservierten Sequenzen je nach verwendetem Algorithmus unterschiedlich ausgerichtet werden? Informationen zu verschiedenen Ausrichtungsalgorithmen finden Sie in diesem Beitrag ( biology.stackexchange.com/questions/20075/… ). Ich könnte völlig falsch liegen, aber mehrfache Ausrichtung und halbkonservierte Sequenzen sind meistens ein Problem für AA, nicht für Nukleotide, da sie entweder übereinstimmen oder nicht

Anas Elghafari

Danke für deinen Kommentar. Die Aminosäureausrichtung würde für meinen Zweck nicht funktionieren (glaube ich), weil ich versuche, die Wahrscheinlichkeit eines einzelnen nt INDEL an einem bestimmten Ort abzuleiten.

Anas Elghafari

Dem Alignment muss also in dem Sinne vertraut werden, dass die durch das Alignment vorhergesagten Nukleotid-INDELs korrekt sind.

WYSIWYG

Nun, Indels werden von Ihrem Sequenzer gelesen. Es gibt Maschinenfehler und Fehler bei der Probenvorbereitung. Sie müssen in Ihrer Maschine Steuerungen einrichten und Ihr Set trainieren. Ich habe Ihre Frage jedoch nicht wirklich verstanden.

Anas Elghafari

Ich habe deinen Kommentar nicht wirklich verstanden, aber das liegt wahrscheinlich daran, dass ich relativ neu auf dieser Welt bin. Was ich versuche zu tun: Ein Paar ausgerichteter nt-Sequenzen kann Regionen haben, die konserviert sind, es kann auch Insertionen/Deletionen haben. Diese Insertionen/Deletionen können vollständige Codons sein, aber es kann auch Insertionen/Deletionen einzelner Nukleotide geben (Habe ich soweit recht?). Mein Ziel aus einem Datensatz ausgerichteter nt-Sequenzen ist es, diese Einfügungen/Löschungen zu untersuchen (und daraus Parameter für das Ausrichtungstool abzuleiten, an dem ich arbeite).

WYSIWYG

@AnasElghafari .. Ich würde vorschlagen, dass Sie ein Diagramm verwenden, um Ihre Frage zu verdeutlichen.

Anas Elghafari

Okay, vergessen wir das Geschäft mit dem „Goldstandard“ und „absolut korrekt“. Ich habe die Frage so bearbeitet, dass ich jetzt nur nach den Datensätzen ausgerichteter nt-Sequenzen frage.

Anas Elghafari

Hey Leute, ich habe meine Frage in etwas geändert, das - so hoffe ich - klarer ist. Können Sie bitte die Sperre aufheben?

WYSIWYG

Was meinen Sie mit ausgerichteten Nukleotidsequenzen: paarweise Ausrichtung oder MSA?

Anas Elghafari

Pairwise würde für meine Zwecke ausreichen.

rmccloskey

Es gibt einige manuell kuratierte HIV-Alignments bei LANL . HIV ist in der Länge ziemlich variabel, daher finden Sie in diesen Ausrichtungen viele Indels.

Antworten (1)

Datensätze ausgerichteter Nukleotidsequenzen [geschlossen]

Was möchten Sie mit diesen ausgerichteten Sequenzen tun? Algorithmen testen? Eigentlich ist deine Frage etwas unklar.
Ich möchte einen solchen Datensatz für das Training verwenden, dh um mir zu helfen, einige Parameter für das Alignment-Tool, an dem ich arbeite, abzuleiten. Danke für deinen Kommentar; Ich werde meine Frage bearbeiten, um sie zu verdeutlichen.
Ich stimme @Chris zu! Meinen Sie, ob dem Alignment selbst aufgrund des verwendeten Algorithmus vertraut werden kann oder ob den Sequenzen selbst vertraut werden kann? Machen Sie sich Sorgen, dass die halbkonservierten Sequenzen je nach verwendetem Algorithmus unterschiedlich ausgerichtet werden? Informationen zu verschiedenen Ausrichtungsalgorithmen finden Sie in diesem Beitrag ( biology.stackexchange.com/questions/20075/… ). Ich könnte völlig falsch liegen, aber mehrfache Ausrichtung und halbkonservierte Sequenzen sind meistens ein Problem für AA, nicht für Nukleotide, da sie entweder übereinstimmen oder nicht
Danke für deinen Kommentar. Die Aminosäureausrichtung würde für meinen Zweck nicht funktionieren (glaube ich), weil ich versuche, die Wahrscheinlichkeit eines einzelnen nt INDEL an einem bestimmten Ort abzuleiten.
Dem Alignment muss also in dem Sinne vertraut werden, dass die durch das Alignment vorhergesagten Nukleotid-INDELs korrekt sind.
Nun, Indels werden von Ihrem Sequenzer gelesen. Es gibt Maschinenfehler und Fehler bei der Probenvorbereitung. Sie müssen in Ihrer Maschine Steuerungen einrichten und Ihr Set trainieren. Ich habe Ihre Frage jedoch nicht wirklich verstanden.
Ich habe deinen Kommentar nicht wirklich verstanden, aber das liegt wahrscheinlich daran, dass ich relativ neu auf dieser Welt bin. Was ich versuche zu tun: Ein Paar ausgerichteter nt-Sequenzen kann Regionen haben, die konserviert sind, es kann auch Insertionen/Deletionen haben. Diese Insertionen/Deletionen können vollständige Codons sein, aber es kann auch Insertionen/Deletionen einzelner Nukleotide geben (Habe ich soweit recht?). Mein Ziel aus einem Datensatz ausgerichteter nt-Sequenzen ist es, diese Einfügungen/Löschungen zu untersuchen (und daraus Parameter für das Ausrichtungstool abzuleiten, an dem ich arbeite).
@AnasElghafari .. Ich würde vorschlagen, dass Sie ein Diagramm verwenden, um Ihre Frage zu verdeutlichen.
Okay, vergessen wir das Geschäft mit dem „Goldstandard“ und „absolut korrekt“. Ich habe die Frage so bearbeitet, dass ich jetzt nur nach den Datensätzen ausgerichteter nt-Sequenzen frage.
Hey Leute, ich habe meine Frage in etwas geändert, das - so hoffe ich - klarer ist. Können Sie bitte die Sperre aufheben?
Was meinen Sie mit ausgerichteten Nukleotidsequenzen: paarweise Ausrichtung oder MSA?
Es gibt einige manuell kuratierte HIV-Alignments bei LANL . HIV ist in der Länge ziemlich variabel, daher finden Sie in diesen Ausrichtungen viele Indels.

Macond · Answer 1

Sie können das 46-Wege-Multiz-Alignment im UCSC-Genom-Browser finden , es befindet sich im Teil der vergleichenden Genomik und ist als "cons 46-way" gekennzeichnet, was ein Genom-Alignment von 46 Wirbeltierarten ist. Sie können Daten über ihren Genom-Browser auf der Website verwenden oder hier Informationen zum Download erhalten .

Wenn Sie an paarweisen Ausrichtungen interessiert sind, kenne ich keine Datenbank für paarweise Ausrichtungen, aber tatsächlich benötigen Sie keine. Sie können in der NCBI-Nukleotiddatenbank nach Nukleotidsequenzen suchen und sie mit BLAST auf deren Website ausrichten . BLAST ist vielleicht das gebräuchlichste Werkzeug für paarweise Alignments und auch für Datenbank-Alignment-Suchen, bei denen eine einzelne Abfragesequenz in einer Datenbank von Sequenzen nach Übereinstimmungen durchsucht wird. Wenn Sie eine große Anzahl von Ausrichtungen durchführen möchten, können Sie BLAST auf Ihren Computer herunterladen, um sie schneller durchzuführen.

Datensätze ausgerichteter Nukleotidsequenzen [geschlossen]

Anas Elghafari

Chris

Anas Elghafari

Behzad Rowshanravan

Anas Elghafari

Anas Elghafari

WYSIWYG

Anas Elghafari

WYSIWYG

Anas Elghafari

Anas Elghafari

WYSIWYG

Anas Elghafari

rmccloskey

Antworten (1)

Macond

Wie interpretiert man die von Clustal Omega erstellte prozentuale Identitätsmatrix?

Was ist der Unterschied zwischen lokalen und globalen Sequenzalignments?

Was ist der neueste Algorithmus für multiples Sequenzalignment?

Anwenden der Constraint-Programmierung auf die Sequenzausrichtung/-analyse

Codon-Alignment über Python? [geschlossen]

Welches Tool kann ich verwenden, um mehrere Proteinsequenzen an einer Referenzsequenz auszurichten?

Wie führt man ein multiples Sequenz-Alignment durch?

Was bedeutet Überlappung von Sequenzen?

Marker-Validierung unter Verwendung von Transkriptom- und genomischen Sequenzen, die von einer einzelnen Zelle stammen

Empfohlener Sequenz-Clustering-Algorithmus für Transkriptomdaten