Konvertieren des DNA-Alignments des Ensembl Compara-Genbaums in das entsprechende Aminosäure-Alignment

Ich habe Ensembl Compara-Genbaum-Alignments (Compara.gene_trees.57.fasta.gz heruntergeladen von ftp://ftp.ensembl.org/pub/release-57/emf/ensembl-compara/homologies/ ) im Nukleotidformat. Laut Dokumentation enthält die Datei "das Peptid-Alignment für jeden Genbaum im Fasta-Format".

Ich habe mich gefragt, was ein praktisches Werkzeug sein könnte, um die entsprechenden Aminosäure-Alignments aus der Datei zu erhalten.

Danke,

Ikram

Die Datei ist gzippt, verwenden Sie also ein Tool wie 7zip oder WinRAR, um sie zu entpacken. Öffnen Sie danach einfach die Fasta-Datei in einem beliebigen Textreader.
Danke Armatus für den Kommentar. Tatsächlich kann ich die Datei mit zless in Ubuntu anzeigen. Das Problem ist, dass die Daten im Nukleotidformat (AGTC ...) vorliegen und ich sie im Aminosäureformat (NGHIK ... usw.) haben möchte. Ich vermute, dass, da die Daten kodierende Sequenzen sind, keine Rahmenverschiebungen erforderlich sind und nur eine Zuordnung von DNA zu Protein funktionieren könnte (aber ich bin mir nicht sicher und möchte es nur bestätigen, bevor ich einen Code dafür schreibe).

Antworten (1)

Als allgemeine Regel, sowohl innerhalb als auch außerhalb der Welt der Bioinformatik, enthalten öffentliche FTP-Sites README-Dateien, die erklären, was jede vom FTP-Server angebotene Datei enthält. Die Datei README.protein_trees besagt:

Vergleiche.gene_trees.{release}.emf.gz

                       enthält das Peptid-Alignment für jeden Genbaum im emf-Alignment-Format

Vergleiche.gene_trees.{release}.fasta.gz

                      enthält das Peptid-Alignment für jeden Genbaum im Fasta-Format

Das bedeutet, dass sowohl Compara.gene_trees.57.emf.gz als auch Compara.gene_trees.57.fasta.gz die Protein-Alignments enthalten. Ich habe mir die Dateien kurz angesehen und es sieht so aus, als ob sie Compara.gene_trees.57.fasta.gztatsächlich Nukleotidsequenzen enthalten, aber Compara.gene_trees.57.emf.gztatsächlich ein Protein-Alignment:

$ zgrep -m 1 AAAAASAAAT Compara.gene_trees.57.emf.gz.crdownload 
SAAA-AHS-AGTAAAAA--AA--AAAAASAAAT-ASAATAI-SASSA-ASAAT-V----AAASVAA-HAFAS---ASAAASAAAAA-TIVAAAAX-SAASIYSAAAA-YAA--AASAS-ASAASAS-ASAASSSSSARS-AAS

Um Ihre Frage zu beantworten, die gewünschte Datei ist diejenige .emf.gz.