Ich interessiere mich für ein statistisches Tool, um die bakterielle Codon-Nutzung auf genomischer Ebene zu erhalten. Idealerweise sollte das Werkzeug flexibel sein, um Hunderte von Bakteriengenomen zu analysieren.
Ich habe in der MeSH-Begriffsdatenbank nachgesehen, aber ich bin etwas verloren, wenn ich nach "Genetic Code" und Software suche .
Ich suche eine Ausgabe wie diese:
Ich habe ein Skript geschrieben , mit dem Sie loslegen können. Es lädt alle proteinkodierenden Transkripte der interessierenden Spezies von Ensembl herunter und druckt die Codon-Verwendung für jedes Codon auf jedem Transkript.
Sie müssen das Bio::EnsEMBL::Registry
Perl-Modul installieren, siehe hier für Anweisungen. Das Skript verwendet auch das Math::Round
Modul, alles andere sollte standardmäßig mit Ihrer Perl-Distribution installiert werden. Schließlich erwartet das Skript, dass es von einem Unix/Linux-Betriebssystem ausgeführt wird.
ensembl_get_codon_count.pl human > human.csv
Gene Name Gene ID Transcript ID Ala_GCC Ala_GCC_% Ala_GCA Ala_GCA_% Ala_GCG Ala_GCG_% Ala_GCT Ala_GCT_%
CRLF2 ENSG00000205755 ENST00000400841 6 40 6 40 0 0 3 20
Im obigen Beispiel enthält das Transkript ENST00000400841 des humanen CRLF2-Gens insgesamt 15 Alaninreste, von denen 6 vom GCC-Codon (40 %), 6 vom GCA-Codon (40 %) und 3 vom GCA-Codon codiert werden GCT-Codon (20 %). Das GCG-Codon wird nicht verwendet (0 %).
Dies ist eine gekürzte Version der Ausgabe, die eigentlichen Ausgabezeilen sind viel länger, da sie alle Codons enthalten und es eine Zeile pro proteinkodierendem Transkript gibt.
Dieses Skript sollte Ihnen zumindest den Einstieg erleichtern, da es Ihnen die Rohdaten liefert, die Sie für Ihre statistischen Analysen benötigen. Wenn Sie es in veröffentlichten Arbeiten verwenden, wäre ich Ihnen dankbar, wenn Sie mir dies mitteilen könnten (meine E-Mail-Adresse ist im Skript enthalten) und mich vielleicht in den Danksagungen erwähnen könnten :).
Terdon
Alan Boyd
Biotech
WYSIWYG
Benutzer560
Terdon
Léo Léopold Hertz 준영