Warum verursachte ein hoher A+T-Gehalt Probleme für das Genomprojekt von Plasmodium falciparum?

In der Hauptarbeit des Genomprojekts Plasmodium palciparum (Gardner et al., 2002) wurde wiederholt erwähnt, dass der ungewöhnlich hohe A+T-Gehalt (~80%) des Genoms Probleme verursacht. Zum Beispiel implizieren sie, dass es sie daran gehindert hat, einen Klon-für-Klon-Ansatz zu verwenden:

Außerdem wurden noch nie qualitativ hochwertige große Insert-Bibliotheken von (A + T)-reicher P. falciparum-DNA in Escherichia coli konstruiert, was eine Klon-für-Klon-Sequenzierungsstrategie ausschloss.

Und dass es die Genannotation schwierig machte:

Der Ursprung vieler von Kandidaten-Organellen stammender Gene konnte nicht abschließend bestimmt werden, teilweise aufgrund der Probleme, die der Analyse von Genen mit sehr hohem (A + T)-Gehalt innewohnen.

Frage:
Welche biologische Bedeutung hat ein hoher A+T-Gehalt und warum würde er Probleme bei der Genomsequenzierung verursachen?

Ref.:
Gardner, MJ, Hall, N., Fung, E., White, O., Berriman, M., Hyman, RW, Carlton, JM, Pain, A., Nelson, KE, Bowman, S., Paulsen, IT, James, K., Eisen, JA, Rutherford, K., et al. (2002) Genomsequenz des menschlichen Malariaparasiten Plasmodium falciparum. Natur. 419 (6906), 498–511.

Ich bin kein Experte für Molekularbiologie, also werde ich dies als Kommentar hinterlassen. Ich denke, das Problem ist das gleiche wie bei G / C-reichen Regionen: Wenn Sie hauptsächlich / nur A und T haben, haben Sie viel weniger mögliche Kombinationen von Nukleotiden und Sie werden viel mehr überlappende Sequenzen im Genom haben, was die Sequenzierung dadurch behindert wird schwierig sein, die Klone zu überlappen.
Guter Punkt, Nico. Indem Sie also die Komplexität reduzieren, erhöhen Sie die Chance, nicht eindeutige Enden zu haben.

Antworten (5)

Die Sequenzierungstechnologien, die in den letzten 20 Jahren entwickelt wurden, haben einen optimalen Anwendungsbereich bei einer durchschnittlichen A+T/G+C-Rate. Sowohl hoch AT-reiche als auch GC-reiche Regionen sind durch die unterschiedlichen Sequenzierungstechnologien kompliziert zu verarbeiten. Jede Technologie hat unterschiedliche Anwendungsbereiche, aber um nur einen zu nennen, bevorzugt die Illumina-Technologie Sequenzen im mittleren Bereich. Wenn Sie versuchen, ein AT-reiches Genom mit dem Illumina-Standardprotokoll zu sequenzieren, sequenzieren Sie ein unvollständiges Genom, dessen Fragmente kein perfektes Abbild des ursprünglichen vollständigen Genoms sind. Andere Technologien behaupten, völlig unabhängig vom Nukleotidgehalt zu sein. Pacific Biosciences ist einer von ihnen, und die Leute scheinen dieser Behauptung zuzustimmen, nachdem sie die Daten analysiert haben, die von ihren Maschinen produziert werden.Oxford Nanopore Technologies behauptet, dass sie fast keine Vorurteile haben, aber bis heute (2012-06-13) gibt es keine Bestätigung dafür durch externe Analysen.

Abgesehen von Sequenzierungsproblemen kann die zum Zusammenstellen und Kommentieren der Sequenzen verwendete Software in AT-reichen und GC-reichen Regionen auch fehleranfällig sein. Viele dieser Probleme sind jedoch auf die Unvollständigkeit der Sequenzierung zurückzuführen.

Ich kann nicht kommentieren, wie der A+T-Reichtum den Sequenzierungsprozess selbst verkompliziert, aber ich kann zu Komplikationen Stellung nehmen, die beim Kommentieren der Sequenz auftreten. Ab-initio -Genprädiktoren basieren häufig auf Hidden-Markov-Modellen, die sehr empfindlich auf die Basenzusammensetzung im Genom reagieren (Dinukleotide, Trinukleotide usw.). Diese Genfinder arbeiten typischerweise sehr schlecht, wenn sie auf einem Genom laufen, das eine ganz andere Basiszusammensetzung hat als das, auf dem es trainiert wurde. Dies könnte einige der Schwierigkeiten erklären, die sie bei der Analyse von Genen im Genom haben.

Häufig beinhaltet die Sequenzierung einen Schritt der Amplifikation von genomischem Material. Der Standardweg, dies durchzuführen, ist PCR, aber PCR ist voreingenommen und amplifiziert sehr AT-reiche Regionen nicht gut. Bei mehreren PCR-Runden können sogar Regionen mit geringer Häufigkeit, die nicht so AT-reich sind, die Probe dominieren und die AT-reichen Sequenzen verbergen.

Dies ist nicht nur ein Problem für die De-novo-Sequenzierung, sondern für viele sequenzierungsbasierte Techniken (RNA-seq, ChIP-seq, your-favorite-seq...). Alternative Methoden wurden bei Plasmodium eingesetzt, sind aber (noch?) nicht Standard.

Siehe zum Beispiel H2A.Z Demarcates Intergenic Regions of the Plasmodium falciparum Epigenome That Are Dynamically Marked by H3K9ac and H3K4me3 unter http://www.plospathogens.org/article/info:doi/10.1371/journal.ppat.1001223

In der Vergangenheit erstellten sie vor der massiv parallelen Sequenzierung eine Bibliothek klonierter Sequenzen und transformierten diese in E. coli . Sequenzen mit hohem AT sind in E. coli schwierig aufrechtzuerhalten (vielleicht aufgrund der Ähnlichkeit mit Promotoren?).

In früheren Antworten wurde bereits viel gesagt, daher werde ich nur kurz zwei potenzielle Probleme mit starker AT / CG-Verzerrung hinzufügen:

1) Potenzial für Polymerase-Slippage aufgrund von Homopolymeren: Dies führt im Allgemeinen zu Fehlern, da möglicherweise unerwünschte Indels in den Reads sowie rein falsche Basen eingebaut werden. Dies ist ein Problem, das sogar bei PCR auftreten kann (obwohl es jetzt viele Möglichkeiten gibt, wenn Sie Geld ausgeben möchten). Also im Allgemeinen höhere Fehlerraten und höhere Lesefehler.

2) Schwierigkeit der Maschine, die Signale einzelner Nukleotide für SANGER zu trennen (es wird alles verschwommen) oder Kalibrierungsfehler bei Next-Gen-Sequenzierung. Also höhere Lesefehler (schlechte Qualität).

3) Unter der Annahme, dass jetzt alles in Ordnung ist, können Regionen mit noch geringerer Komplexität SEHR schwer zu kartieren sein, ganz zu schweigen davon, ein vollständiges Genom von Grund auf neu zusammenzusetzen.

Hoffe das hilft!