Wie lassen sich BLAST-Ergebnisse selektiv nach einem endogenen retroviralen LTR filtern, um Mitglieder derselben ERV-Familie abzurufen?

Ich führe eine lokale BLAST-Suche nach einer HERV-K(HML2)-LTR-Sequenz im menschlichen Genom durch. Ich bekomme Tausende von Treffern.

Ich möchte nur die Treffer abrufen, die anderen HERV-K(HML2)-LTR-Sequenzen entsprechen.

Welche Ausrichtungslängen-/Identitätsfilter sollte ich für die Treffer verwenden, um LTRs derselben Familie auszuwählen? Einfügungen und Löschungen können die Ausrichtungslängen leicht ändern, was bedeutet, dass die Cutoff-Länge für den gewünschten Filter nicht klar ist. Ich kann herausfinden, welche Ausrichtungslängen-Cutoffs welchen Prozentsatz der Ergebnisse entfernen, um große Tropfen an bestimmten Cutoffs zu identifizieren, aber es war nicht sehr hilfreich.

Antworten (2)

Ich glaube nicht, dass es eine definitive Antwort auf dieses Problem gibt, aber hier sind ein paar Dinge, die Ihnen helfen könnten, abgesehen von einem einfachen Längenfilter für die Treffer:

  • Filtern Sie nach Regionen: Da LTRs Repeats sind, erhalten Sie möglicherweise mehrere BLAST-Ergebnisse aus derselben Repeat-Region/Lokus (insbesondere wenn Ihre Eingabesequenz kleiner als diese Region ist). Sie möchten wahrscheinlich nur einen Treffer pro Region behalten

  • Suchen Sie nach einer konservierten (Unter-)Sequenz: Hoffentlich hat Ihre spezifische LTR-Sequenz einen "Kern", der vorhanden sein muss, damit sie als Teil Ihrer Familie betrachtet werden kann. Sie möchten nur BLAST-Hits behalten, die absolut zu diesem „Kern“ passen.

Ich weiß nicht, was Ihre Anwendung ist, aber RepBase hat einen kuratierten Satz von ERV-Loci in einer BED-Datei, die Sie verwenden können, um Sequenzen abzurufen/Regionen von Interesse zu definieren und so weiter.

Natürlich können repetitive Regionen in Bezug auf die genomische Lokalisierung im Allgemeinen schwieriger zu kartieren sein, und in meinem Labor, wo wir regelmäßig ERVs bei Krebs untersuchen, ordnen wir normalerweise RNAseq-Daten Repbase-Sequenzen in einer Fasta-Datei zu, um Gesamtexpressionsschätzungen abzuleiten a pro Familie.