Welches Tool kann ich verwenden, um mehrere Proteinsequenzen an einer Referenzsequenz auszurichten?

Ich habe ein Protein von Interesse, das ~ 300 Aminosäuren lang ist. Ich habe auch ungefähr 40 kurze Sequenzen (alle 9 Aminosäuren lang); diese sind alle sehr unterschiedlich. Ich möchte mehrere paarweise Alignments durchführen, um zu sehen, ob diese Sequenzen mit irgendwelchen Bereichen in dem interessierenden Protein übereinstimmen (oder eine hohe Sequenzidentitätsähnlichkeit aufweisen).

Da die kurzen 9-AS-Sequenzen sehr heterogen sind, weisen sie Ähnlichkeiten in verschiedenen Regionen des interessierenden Proteins auf. Ich würde gerne wissen, ob es möglich ist, die Ausrichtungen für alle 40 Sequenzen in einem Schritt durchzuführen, anstatt COBALT 40 Mal zu verwenden (und jede der kurzen Sequenzen einzeln mit der Referenzsequenz zu vergleichen).

Bitte teilen Sie mir mit, wenn die Beschreibung meines Problems nicht klar genug ist. Ich würde mich über jede Hilfe bei der Identifizierung einer Möglichkeit freuen, dies zu tun.

Hallo und willkommen bei Bio.SE! Es klingt, als würden Sie BLAST neu erfinden. Ich würde vorsichtig sein, diese kurzen Regionen auszurichten. Ich sehe kein Problem darin, 40 paarweise Ausrichtungen auszuführen, wenn Sie die paarweise Ausrichtung programmgesteuert ausführen können.
Dies scheint eher eine Frage der Bioinformatik als eine Frage der Biologie zu sein . —— Bitte nehmen Sie sich die Zeit für die Tour und gehen Sie dann die Hilfeseiten durch, beginnend mit So stellen Sie auf dieser Website effektiv Fragen. Danke! 😊

Antworten (3)

Was Sie durchführen möchten, wird allgemein als multiples Sequenz-Alignment bezeichnet. Wie @Wayne_Yux sagte, besteht der erste Schritt darin, alle Ihre Proteinsequenzen in einer einzigen Fasta-Datei abzulegen. Sie können dann eines von mehreren Online-Tools verwenden, um verschiedene Ausrichtungsalgorithmen auf Ihren Proteinsequenzsatz anzuwenden.

Ein beliebter Sequenz-Alignment-Algorithmus ist Clustal, der aus allen paarweisen Alignments schrittweise ein multiples Sequenz-Alignment aufbaut. genome.jp hostet ein webbasiertes Alignment-Tool, mit dem Sie zwischen Clustal- und anderen Alignment-Typen wählen können (1). Für das Alignment vieler kleiner Sequenzen zu einer einzigen größeren Sequenz sollten Sie die Option „LANGSAM/GENAU“ (2) verwenden. Nachdem Sie Ihr Fasta hochgeladen (3) und mehrfaches Alignment ausgeführt haben (4), wird eine aln-Datei generiert, die Sie herunterladen können (5).

Geben Sie hier die Bildbeschreibung ein

Sie können diese aln-Datei dann in ein anderes Tool hochladen, mit dem Sie Ausrichtungen visualisieren können. Persönlich mag ich ESPript , das farbcodierte Ausrichtungen in PDF- oder Bildformaten liefert. Da Sie viele Sequenzen vergleichen möchten, wird es wahrscheinlich notwendig sein, die Parameter „Ausgabelayout der Ausrichtungen“ zu ändern, z. B. den „Abstand zwischen Blöcken“ auf eine kleinere Zahl zu ändern, um alle Ihre Sequenzen in einem Frame unterzubringen.

Sie können die 40 Sequenzen in einer Fasta-Datei speichern und blastpsie dann alle auf einmal an Ihrer Referenzsequenz ausrichten.

Danach können Sie die Ausrichtungstreffer überprüfen und sehen, ob sie Ihren Qualitätserwartungen entsprechen

Bei einem multiplen Sequenz-Alignment versuchen die Algorithmen, die Sequenzen entlang ihrer Länge auszurichten (globales Alignment). Was Sie brauchen, ist ein lokaler Ausrichtungsansatz mit einer hohen Strafe für Basenfehlanpassung.

Der E-INS-i-Algorithmus in MAFFT könnte die gewünschte Funktionalität bereitstellen. Wählen Sie die Erweiterten Einstellungen und dort:

  1. Strategie -> E-INS-i-Algorithmus

  2. Nicht verwandte Segmente ausrichten -> Bereiche mit Lücken belassen

Je nachdem, wie heterogen Ihre Sequenzen sind, müssen Sie möglicherweise auch andere Einstellungen anpassen. Ohne die Daten ist eine genauere Anleitung nicht möglich.