Tool zur Aminosäurezusammensetzung des gesamten Genoms?

Ich interessiere mich für ein statistisches Tool, um die bakterielle Codon-Nutzung auf genomischer Ebene zu erhalten. Idealerweise sollte das Werkzeug flexibel sein, um Hunderte von Bakteriengenomen zu analysieren.

Ich habe in der MeSH-Begriffsdatenbank nachgesehen, aber ich bin etwas verloren, wenn ich nach "Genetic Code" und Software suche .

Ich suche eine Ausgabe wie diese:

Geben Sie hier die Linkbeschreibung ein

Bitte klären Sie ein wenig. Was ist "genetische Codenutzung"? Meinen Sie den Code, den eine Art verwendet, oder denken Sie an Codon-Verzerrungen ? Was versuchst du mit MESH zu tun? Wie erhält man eine Zusammensetzung auf Genomebene? Sie meinen das Nutzungsverhältnis von aas im gesamten Proteom? Bitte bearbeiten Sie Ihren Beitrag und fügen Sie die eigentliche wissenschaftliche Frage hinzu, die Sie zu beantworten versuchen.
Nur um den Kommentar von @terdon zu verstärken - meinst du die Aminosäurezusammensetzung des Proteoms (dh unter Berücksichtigung der Proteinhäufigkeit) oder meinst du das einfach aus der Übersetzung aller offenen Leserahmen berechnet?
Als Antwort auf die Kommentare habe ich meine Frage bearbeitet und meine ideale Ausgabe hinzugefügt.
überprüfen Sie dies . Sie können die Tabellen für mehrere Genome abrufen und dann Ihre Statistiken anwenden. Sie können ein Skript verwenden, um den Download zu automatisieren
Sie sollten sich auch darüber im Klaren sein, dass es innerhalb von Untergruppen des Genoms unterschiedliche Codon-Verzerrungen gibt. Zum Beispiel verwenden metabolische Gene eine andere Codon-Beeinflussung als die Transkript-Beeinflussung des gesamten Genoms. Außerdem hat mitochondriale DNA eine andere Codon-Beeinflussung als genomische DNA-Codon-Beeinflussung.
@Masi könnten Sie klarstellen , wie die Antwort verbessert werden soll? Vielleicht bearbeiten Sie die Frage, um eine bestimmte statistische Berechnung zu definieren, die Sie sehen möchten?
Mehr praktische Beispiele und mehr Vergleiche mit anderen bestehenden Tools. Ich habe einige in verschiedenen Labors gesehen und möchte verschiedene Ansichten haben, warum ich einige Werkzeuge verwenden sollte. Dies ist ein riesiges Thema und ich kann nicht sehen, dass meine Antwort diese Frage beantworten kann.

Antworten (1)

Ich habe ein Skript geschrieben , mit dem Sie loslegen können. Es lädt alle proteinkodierenden Transkripte der interessierenden Spezies von Ensembl herunter und druckt die Codon-Verwendung für jedes Codon auf jedem Transkript.

Sie müssen das Bio::EnsEMBL::RegistryPerl-Modul installieren, siehe hier für Anweisungen. Das Skript verwendet auch das Math::RoundModul, alles andere sollte standardmäßig mit Ihrer Perl-Distribution installiert werden. Schließlich erwartet das Skript, dass es von einem Unix/Linux-Betriebssystem ausgeführt wird.

Beispiellauf

 ensembl_get_codon_count.pl human > human.csv

Beispielausgabe

Gene Name   Gene ID      Transcript ID  Ala_GCC Ala_GCC_% Ala_GCA Ala_GCA_% Ala_GCG Ala_GCG_% Ala_GCT Ala_GCT_%
CRLF2   ENSG00000205755 ENST00000400841    6       40        6      40         0       0         3       20

Im obigen Beispiel enthält das Transkript ENST00000400841 des humanen CRLF2-Gens insgesamt 15 Alaninreste, von denen 6 vom GCC-Codon (40 %), 6 vom GCA-Codon (40 %) und 3 vom GCA-Codon codiert werden GCT-Codon (20 %). Das GCG-Codon wird nicht verwendet (0 %).

Dies ist eine gekürzte Version der Ausgabe, die eigentlichen Ausgabezeilen sind viel länger, da sie alle Codons enthalten und es eine Zeile pro proteinkodierendem Transkript gibt.

Dieses Skript sollte Ihnen zumindest den Einstieg erleichtern, da es Ihnen die Rohdaten liefert, die Sie für Ihre statistischen Analysen benötigen. Wenn Sie es in veröffentlichten Arbeiten verwenden, wäre ich Ihnen dankbar, wenn Sie mir dies mitteilen könnten (meine E-Mail-Adresse ist im Skript enthalten) und mich vielleicht in den Danksagungen erwähnen könnten :).