Ich habe Ensembl Compara-Genbaum-Alignments (Compara.gene_trees.57.fasta.gz heruntergeladen von ftp://ftp.ensembl.org/pub/release-57/emf/ensembl-compara/homologies/ ) im Nukleotidformat. Laut Dokumentation enthält die Datei "das Peptid-Alignment für jeden Genbaum im Fasta-Format".
Ich habe mich gefragt, was ein praktisches Werkzeug sein könnte, um die entsprechenden Aminosäure-Alignments aus der Datei zu erhalten.
Danke,
Ikram
Als allgemeine Regel, sowohl innerhalb als auch außerhalb der Welt der Bioinformatik, enthalten öffentliche FTP-Sites README-Dateien, die erklären, was jede vom FTP-Server angebotene Datei enthält. Die Datei README.protein_trees besagt:
Vergleiche.gene_trees.{release}.emf.gz
enthält das Peptid-Alignment für jeden Genbaum im emf-Alignment-Format
Vergleiche.gene_trees.{release}.fasta.gz
enthält das Peptid-Alignment für jeden Genbaum im Fasta-Format
Das bedeutet, dass sowohl Compara.gene_trees.57.emf.gz als auch Compara.gene_trees.57.fasta.gz die Protein-Alignments enthalten. Ich habe mir die Dateien kurz angesehen und es sieht so aus, als ob sie Compara.gene_trees.57.fasta.gz
tatsächlich Nukleotidsequenzen enthalten, aber Compara.gene_trees.57.emf.gz
tatsächlich ein Protein-Alignment:
$ zgrep -m 1 AAAAASAAAT Compara.gene_trees.57.emf.gz.crdownload
SAAA-AHS-AGTAAAAA--AA--AAAAASAAAT-ASAATAI-SASSA-ASAAT-V----AAASVAA-HAFAS---ASAAASAAAAA-TIVAAAAX-SAASIYSAAAA-YAA--AASAS-ASAASAS-ASAASSSSSARS-AAS
Um Ihre Frage zu beantworten, die gewünschte Datei ist diejenige .emf.gz
.
Armatus
Ikram Ullah