Tool zum Nukleotid-Alignment mit allen Nukleotid-Codes (zB R, Y, W, S, etc.)?

Ich habe eine Vektorsequenz und möchte darin die folgende Nukleotidsequenz finden.

AASYWSRA

Diese Abfragesequenz verwendet mehrere degenerierte Symbole, die wie folgt definiert sind:

  • S = C oder G ( Stark )
  • Y = C oder T (p Y -Rimidin)
  • W = A oder T ( schwach )
  • R = A oder G (pu R ine)

(Auf dieser Seite finden Sie eine vollständige Beschreibung der IUPAC-Nukleotidcodes.)

Gibt es ein Tool, um diese Sequenz mit dem Vektor auszurichten und alle möglichen Stellen zu finden?

BEARBEITEN: Ich habe diese Website gefunden , konnte aber keine der hilfreichen Ressourcen finden. Vielleicht funktioniert eines davon, aber ich fand die meisten zu kompliziert. Wenn Sie wissen, welches funktioniert und erklären, wie man es benutzt, bin ich Ihnen dankbar.

Ich hätte schwören können, dass NCBI BLAST das kann? Hast du es versucht?

Antworten (3)

Wenn Sie nach einer exakten Übereinstimmung suchen, brauchen Sie nicht wirklich einen komplexen Aligner. Reguläre Ausdrücke in Perl sind ziemlich leistungsfähig bei String-Transformationen oder bedingtem Abgleich von Teilstrings. Um beispielsweise alle Übereinstimmungen von AASYWSRAin einer Nukleotidsequenz zu finden $seq, können Sie Folgendes tun:

@matches = $seq =~ m/AA[CG][CT][AT][CG][AG]A/g;

Die []Klammern sind als Perl-Zeichenklassen bekannt, die verschiedene Zeichen an einer Position zulassen.

Ich habe die Funktion nie genutzt, aber ich weiß, dass Sie mit Vmatch Ihre eigenen Alphabete und Symbolzuordnungen definieren können, die es Ihnen ermöglichen sollten, die mehrdeutigen Nukleotidsymbole der IUPAC zu handhaben. Das Standardalphabet/die Standardzuordnung kann diese Symbole sogar enthalten.

Leider behandelt vmatch die Buchstaben in Symbolzuordnungen als gleichwertig (z. B. S = C). Es behandelt nicht, dass S C oder G sein kann. Die Symbolabbildung ist für die Behandlung von Groß- und Kleinschreibung (z. B. t = T) oder für die Gruppierung ähnlicher Aminosäuren vorgesehen.

Ich habe MAST verwendet , um nach bestimmten Motiven in einer Sequenz zu suchen.

Auf der MAST-Intro-Seite sieht es so aus, als müssten Sie Ihr Motiv ein wenig umformatieren, aber es sollte für Ihre Zwecke ausreichen:

Motive werden als positionsabhängige Bewertungsmatrizen dargestellt, die die Bewertung jedes möglichen Buchstabens an jeder Position im Muster beschreiben.

Hier finden Sie weitere Informationen zur Formatierung , die auch darauf hinweisen, dass das von Ihnen verwendete Alphabet korrekt interpretiert wird.