Ich arbeite derzeit daran, Sequenzen auszurichten, und ich muss die Ähnlichkeit zwischen Paaren von DNA-„Wörtern“ einer bestimmten Länge berechnen.
Für Aminosäuren kann ich die Substitutionsmatrizen in Biopython (Bio.SubsMat.MatrixInfo) verwenden.
Ich habe jedoch nichts Ähnliches für DNA gefunden, also habe ich nachgelesen und festgestellt, dass die meisten Systeme ein Übereinstimmungs-/Nichtübereinstimmungs-Bewertungssystem verwenden, bei dem jede Nukleotidübereinstimmung und Nichtübereinstimmung bewertet und dann die Bewertungen summiert werden. Das funktioniert gut, solange ich nur mit A, G, C und T zu tun habe, aber ich bekomme Probleme, wenn ich eine Sequenz bekomme, die N oder M und dergleichen enthält (dh Nukleotid unbekannt).
Gibt es eine Standardmethode, um die Situation mit Unbekannten zu handhaben? Das heißt, wie bewerte ich A gegen N oder M gegen N?
Danke im Voraus.
BLASTN verwendet keine Substitutionsmatrix. Es gibt Scores für Übereinstimmung, Nichtübereinstimmung und Lücken, die Sie ebenfalls definieren können.
Derzeit ist keine Funktion verfügbar, mit der Spiele gegen Unbekannt gewertet werden können. Sie werden als Nichtübereinstimmungen betrachtet (wie unten gezeigt). Wenn sich diese Unbekannten in der Mitte eines HSP befinden, können Sie das HSP wahrscheinlich mithilfe eines Python-Skripts gemäß Ihrem Schema neu bewerten. Wenn die N
Dehnung die HSP stört, können Sie versuchen, die Mismatch-Strafen zu lockern und die Wortgröße zu reduzieren (im Grunde genommen die Stringenz reduzieren). Mir fällt keine andere Lösung ein.
Query 1 CAGCGTCCANNTCCCGAGGTGCCGGGATTGCAGACGGAGTCTGGTTCACTCAGTGCTCAA 60
||||||||| |||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct 8 CAGCGTCCACCTCCCGAGGTGCCGGGATTGCAGACGGAGTCTGGTTCACTCAGTGCTCAA 67
Query 61 TGGTGCCCAGGCTGGAGTGCAGTGGCGTGATCTCGGCTCGCTACANNCTCCACCTCCCAG 120
||||||||||||||||||||||||||||||||||||||||||||| |||||||||||||
Sbjct 68 TGGTGCCCAGGCTGGAGTGCAGTGGCGTGATCTCGGCTCGCTACAACCTCCACCTCCCAG 127
Query 121 CCGCCTGCCCTGGCCTCCCAAAGTGCCGAGATTGCAGCCTCTGCCCAGCCGCCACCCC 178
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct 128 CCGCCTGCCCTGGCCTCCCAAAGTGCCGAGATTGCAGCCTCTGCCCAGCCGCCACCCC 18
Chris Kammern
WYSIWYG
Chris Kammern