Wie werden die verschiedenen Klassen von E. coli-Genen bestimmt?

Wenn man sich einige detailliertere Codon-Verwendungstabellen ansieht , können Gene weiter in drei Genklassen gruppiert werden: Metabolische Gene, stark exprimierte Gene während des exponentiellen Wachstums und horizontaler Gentransfer. Betrachtet man die Originalarbeit von Medique et al., gruppierten sie die Gene basierend auf dem CAI und bestimmten dann durch eine Variante von k-means 3 Klassen. Beachten Sie, dass sich dies von einem Klasse-II-Gen unterscheidet, das durch die Typen der verwendeten RNA-Polymerase bestimmt wird.

Wie haben sie schließlich festgestellt, was die drei Klassen sind? Es scheint, als hätten sie diese Verallgemeinerung ohne Proteomdaten gemacht. Würden die gleichen Gene anhand von Proteinexpressionsdaten während des exponentiellen Wachstums und des stationären Wachstums klassifiziert werden?

Antworten (1)

Ich las die Zeitung durch. Der Autor beginnt mit der Feststellung, dass zum Zeitpunkt des Schreibens zwei verschiedene Klassen von Codon-Verwendungsprofilen bekannt waren (oder zumindest mutmaßlich bekannt waren). Alle verwendeten 782 einzigartigen CDS-Sequenzen wurden einem zweistufigen Klassifizierungsverfahren unterzogen. In Schritt eins wurde jedes CDS in einen 61-dimensionalen Vektor zerlegt, der jedes der 61 möglichen Codons darstellt. An diesen Vektoren wurde eine faktorielle Clusteranalyse (das kategoriale, multivariate Äquivalent der Hauptkomponentenanalyse) durchgeführt, wobei 61 Dimensionen auf 2 Dimensionen reduziert wurden. Jetzt, da die Datenkomplexität auf 2D reduziert wurde, ist es für einen k-Means-Algorithmus einfacher zu handhaben, die Daten zu partitionieren. Am Ende wurden die Gene in 3 orthogonale Gruppen (Klassen I, II und III mit 502, 191 bzw. 89 CDS) geclustert.

Erst nachdem die Autoren den Gensatz gruppiert hatten, konnten sie zurückgehen und sich die kanonischen Definitionen jedes Gens ansehen. Zufälligerweise hatte jede Klasse von Genen eine starke Ausrichtung auf Untergruppen von Zellfunktionen (z. B. Stoffwechsel, Proteinbiosynthese, Transport). Sie verwendeten keine Proteomdaten, konnten aber die Rolle für eine große Anzahl dieser Gene basierend auf der damaligen Literatur definieren.

Danke für die Analyse. Ich bin gespannt, wie dieser Datensatz mit der Highly Expressed Genes Database übereinstimmt, die validierte Gene verwendet. genomes.urv.cat/HEG-DB
Ich habe darüber nachgedacht, wie sich das mit dem vergleichen lässt, was heute in der NCBI-Datenbank hinterlegt ist. Dieses Papier stammt aus dem Jahr 1991, also denke ich, dass es viele dieser größeren Datenbanken vordatiert. Es wäre interessant zu sehen, wie es mit der von Ihnen angegebenen HEG-Datenbank verglichen wird.