Es ist eine einfache Frage, aber ich bin auf viele Leute gestoßen, die diese Frage haben: Ist das Referenzgenom positiv oder negativ? In der Tat hatte ich hitzige Auseinandersetzungen über das gleiche Problem.
Also hier ist es, all diese Fragen zur Ruhe zu bringen.
Ist das Referenzgenom ein positiver oder ein negativer Strang? Und warum so.
Zunächst einmal wird die Referenzgenomstrangspezifität als Sense (Positivstrang) oder Antisense (Negativstrang) bezeichnet. Betrachten wir nun die Sequenzierung von Daten oder FASTQ-Dateien. Wenn wir Lesevorgänge ausrichten, hat eine resultierende SAM- oder BAM-Datei eine Spalte, die Stranginformationen angibt, wir sehen normalerweise einen + oder - Strang.
Für mehr Hintergrundinformationen zu den Strangnamen hier eine etwas falsche Anmerkung aus dem Wiki-Artikel unter Sinn (Molekularbiologie)
Die Strangnamen hängen tatsächlich davon ab, in welche Richtung Sie die Sequenz schreiben, die die Informationen für Proteine (die "Sinn" -Informationen) enthält, nicht davon, welcher Strang oben oder unten ist (das ist willkürlich). Die einzige echte biologische Information, die für die Markierung von Strängen wichtig ist, ist die Position der 5'-Phosphatgruppe und der 3'-Hydroxylgruppe, da diese Enden die Richtung der Transkription und Translation bestimmen. Eine Sequenz 5' CGCTAT 3' ist äquivalent zu einer Sequenz, die als 3' TATCGC 5' geschrieben ist, solange die 5'- und 3'-Enden notiert sind. Wenn die Enden nicht beschriftet sind, geht die Konvention davon aus, dass die Sequenz in der 5'- bis 3'-Richtung geschrieben ist. Watson-Strang bezieht sich auf den oberen Strang von 5' bis 3' (5' → 3'), während sich der Crick-Strang auf den unteren Strang von 5' bis 3' bezieht (3' ← 5' ).[4] Sowohl Watson- als auch Crick-Stränge können entweder Sense- oder Antisense-Stränge sein, abhängig von dem Gen, dessen Sequenzen in der Genomsequenzdatenbank angezeigt werden. Beispielsweise definiert YEL021W, ein Alias des URA3-Gens, das in der NCBI-Datenbank verwendet wird, dass dieses Gen im 21. offenen Leserahmen (ORF) vom Zentromer des linken Arms (L) von Hefe (Y) Chromosom Nummer V (E ) und dass der für die Expression kodierende Strang der Watson-Strang (W) ist. YKL074C definiert den 74. ORF links vom Zentromer von Chromosom XI und bezeichnet den codierenden Strang des Crick-Strangs (C). Ein weiterer verwirrender Begriff, der sich auf „Plus“- und „Minus“-Strang bezieht, wird ebenfalls häufig verwendet. Unabhängig davon, ob der Strang ein Sense-Strang (positiv) oder ein Antisense-Strang (negativ) ist, ist die Standardabfragesequenz im NCBI BLAST-Alignment der „Plus“-Strang. [4] Sowohl Watson- als auch Crick-Stränge können entweder Sense- oder Antisense-Stränge sein, abhängig von dem Gen, dessen Sequenzen in der Genomsequenzdatenbank angezeigt werden. Beispielsweise definiert YEL021W, ein Alias des URA3-Gens, das in der NCBI-Datenbank verwendet wird, dass dieses Gen im 21. offenen Leserahmen (ORF) vom Zentromer des linken Arms (L) von Hefe (Y) Chromosom Nummer V (E ) und dass der für die Expression kodierende Strang der Watson-Strang (W) ist. YKL074C definiert den 74. ORF links vom Zentromer von Chromosom XI und bezeichnet den codierenden Strang des Crick-Strangs (C). Ein weiterer verwirrender Begriff, der sich auf „Plus“- und „Minus“-Strang bezieht, wird ebenfalls häufig verwendet. Unabhängig davon, ob der Strang ein Sense-Strang (positiv) oder ein Antisense-Strang (negativ) ist, ist die Standardabfragesequenz im NCBI BLAST-Alignment der „Plus“-Strang. [4] Sowohl Watson- als auch Crick-Stränge können entweder Sense- oder Antisense-Stränge sein, abhängig von dem Gen, dessen Sequenzen in der Genomsequenzdatenbank angezeigt werden. Beispielsweise definiert YEL021W, ein Alias des URA3-Gens, das in der NCBI-Datenbank verwendet wird, dass dieses Gen im 21. offenen Leserahmen (ORF) vom Zentromer des linken Arms (L) von Hefe (Y) Chromosom Nummer V (E ) und dass der für die Expression kodierende Strang der Watson-Strang (W) ist. YKL074C definiert den 74. ORF links vom Zentromer von Chromosom XI und bezeichnet den codierenden Strang des Crick-Strangs (C). Ein weiterer verwirrender Begriff, der sich auf „Plus“- und „Minus“-Strang bezieht, wird ebenfalls häufig verwendet. Unabhängig davon, ob der Strang ein Sense-Strang (positiv) oder ein Antisense-Strang (negativ) ist, ist die Standardabfragesequenz im NCBI BLAST-Alignment der „Plus“-Strang.
Obwohl es richtig ist, wenn es heißt
Eine zufriedenstellende Antwort/Konvention wird in diesem PMC-Artikel bereitgestellt/vorgeschlagen, der die Terminologie der Watson- und Crick-Stränge behandelt
Nachfolgend einige interessante Auszüge aus der Veröffentlichung:
Der früheste Hinweis, den wir auf den „Watson-Strang“ und den „Crick-Strang“ finden konnten, ist etwas ironisch und stammt aus zwei Veröffentlichungen von Wacław Szybalski und Kollegen aus dem Jahr 1967. Sie banden die beiden DNA-Stränge des Phagen λ an das synthetische Polynukleotid Poly(IG), das eine Affinität zu Cytosin-reichen Regionen hat. Anschließend trennten sie die beiden Stränge anhand der Dichte, die durch die Menge an gebundenem Poly(IG) bestimmt wurde. In einem Cäsiumchlorid-Dichtegradienten war der Strang mit mehr gebundenem Poly(IG) dichter und schwerer als sein Komplement. Da der „dichte“ Strang Cytosin-reich war, nannten ihn Szybalski und Kollegen den „C-Strang“. Logischerweise hätte daher der komplementäre Strang, der reich an Guanin war, der "G-Strang" sein sollen. Stattdessen wurde es "W-Strang" getauft.
Die Autoren stellen also fest, dass die Stränge ihre Terminologiereise mit vertauschten Rollen begannen, wobei der Crick-Strang den schweren Strang (mit IG) und der Watson-Strang den leichteren festlegte.
Sie stellen auch fest, dass die heutige Terminologie des WC-Modells nicht willkürlich auf der aktuellen horizontalen Zeichnungskonvention basiert, bei der ein Strang oben und der andere unten platziert wird.
Sie schlugen auch eine typische Konvention vor, die heute befolgt wird. Ob es an ihrem Vorschlag lag, ist eine ganz andere Sache, aber außerhalb des Rahmens dieser Frage.
Angesichts des Aufwands, der bereits für die Standardisierung solcher Datenbanken aufgewendet wurde, und ihres Einflusses auf andere Disziplinen glauben wir, dass die genomische Definition von Watson- und Crick-Strängen die größte Masse hinter sich hat. Insbesondere halten wir die eindeutige Verwendung der Saccharomyces-Genomdatenbank für am nützlichsten. Im ersten Teil unseres Vorschlags ist das Zentromer ein Bezugspunkt, der ein Chromosom in zwei Arme ungleicher Länge teilt. Das Chromosom ist so ausgerichtet, dass der kürzere Arm links und der längere Arm rechts ist. Darüber hinaus hat der obere Strang sein 5'-Ende am linken (kurzarmigen) Telomer und sein 3'-Ende am rechten (langarmigen) Telomer. Dieser Strang ist der Watson-Strang. In ähnlicher Weise hat der untere Strang sein 5'-Ende am rechten Telomer und sein 3'-Ende am linken Telomer und ist der Crick-Strang.
und später...
Wenn es letztendlich unmöglich ist, Watson- und Crick-Stränge anhand biologischer Eigenschaften zu unterscheiden, dann schlagen wir vor, dass Watson sich auf den willkürlich als Referenz in einer Datenbank verwendeten Stand (dh den „Plus“-Stand) und der Crick-Strang auf sein Komplement beziehen sollte
Aber kommen wir zurück zu Sequenzierungsdaten oder FASTQ-Dateien. Wenn wir Lesevorgänge ausrichten, hat eine resultierende SAM- oder BAM-Datei eine Spalte, die Stranginformationen angibt, wir sehen normalerweise einen + oder - Strang.
Was darauf hindeutet, dass das Produkt entweder von den Watson- (positiven) oder den Crick- (negativen) Strängen stammt. Beispielsweise ist ein Read eigentlich das umgekehrte Komplement des Produkts, aber da Sie während der Bibliotheksvorbereitung einen PCR-Schritt durchführen, geht diese bestimmte Information verloren, und daher neigen die nachgelagerten Analyseprotokolle dazu, die gesamten Loci zu berücksichtigen, an denen sich ein einzelnes Produkt ausrichtet .
Der Unterschied zwischen strangspezifischer Sequenzierung und nicht-strangspezifischer Sequenzierung wird hier behandelt .
Das +
und -
ist eine bioinformatische Klassifikation. Die Referenzsequenz ist standardmäßig die +
und alle Gene in der entgegengesetzten Orientierung sind als annotiert -
.
Bei linearen eykaryotischen Chromosomen liegt die Referenzgenomsequenz in der Orientierung des Chromosoms (basierend auf einer älteren zytogenetischen Zuordnung; normalerweise ist der kurze Arm 5').
Bei Prokaryoten schätze ich, dass der Ursprung der Replikation der Beginn des Referenzgenoms ist ( Eisen et al., 2000 ).
Antworten
Es gibt keinen positiven oder negativen Strang für ein Genom (Referenz oder anderes), aus dem einfachen Grund, dass die Genome fast aller Organismen Gene in beiden Orientierungen enthalten und daher jeder Strang Gene enthält, deren Sequenz in der ist Sense- und Antisense-Richtung in Bezug auf die mRNA.
Die Ausnahme bilden einzelsträngige RNA-Viren, bei denen ein einzelner Strang als mRNA fungieren kann. Hier wird hauptsächlich die „+“- und „–“-Nomenklatur verwendet – um zu unterscheiden, welcher Strang im Virusgenom verwendet wird.
Ich habe dieses Thema zuvor in meinen Antworten auf verwandte Fragen zur Sequenzrichtung in Datenbanken und Leserahmen angesprochen .
Weitere Klarstellung: Wo beginnen Referenzgenome und auf welchem Strang?
Um die Antwort auf diese Frage zu finden, sollten Sie sich die Dokumentation in der Datenbank für das jeweilige interessierende Genom ansehen. Soweit mir bekannt ist, gilt jedoch im Allgemeinen Folgendes. (Andere können das vielleicht verbessern.)
Genkomplement (11566..11952) /locus_tag="YAL065C" CDS-Komplement (11566..11952) /locus_tag="YAL065C" /note="Yal065cp" /codon_start=1 /inference="nicht-experimentelle Beweise, keine zusätzlichen Details aufgezeichnet" /product="Vermeintliches Protein unbekannter Funktion; hat Homologie zu FLO1; möglicherweise pseudogen" /protein_id="NP_009335.1" /db_xref="SGD:S000001817" /db_xref="GI:6319252" /db_xref="GeneID:851232" /translation="MNSATSETTTNTGAAETTTSTGAAETKTVVTSSISRFNHAETQT ASATDVIGHSSSVVSVSETGNTKSLITSGLSTMSQQPRSTPASSIIGSSTASLEISTY VGIANGLLTNNGISVFISTVLLAIVW" Gen 12047..12427 /locus_tag="YAL064W-B" /db_xref="GeneID:851233" CDS 12047..12427 /locus_tag="YAL064W-B" /note="Yal064w-bp" /codon_start=1 /inference="nicht-experimentelle Beweise, keine zusätzlichen Details aufgezeichnet" /product="Pilzspezifisches Protein unbekannter Funktion" /protein_id="NP_009336.1" /db_xref="SGD:S000002141" /db_xref="GI:6319253" /db_xref="GeneID:851233" /translation="MAGEAVSEHTPDSQEVTVTSVVCCLDSVVEIGHHVVYSVVTPLI VAVLIDTMAGEAVLEHTSDSQEEIVTTVVCSVVPLVCFVVSVVCFVISVVEIGHHVVY SVVAPLTVTVAVETIAEEMDSVHT"
[Beispiel eines Teils der Genbank-Datei (NC_001133), der zeigt, wie die Direktionalität von zwei Genen mit entgegengesetzten Orientierungen mit dem Begriff „Komplement“ angegeben wird.]
Nachtrag: Bioinformatik-Programme
Wie @WYSIWYG in seiner Antwort angibt, geben bestimmte Bioinformatikprogramme, die Gentabellen erstellen, ihre Richtung mit „+“ oder „–“ an, um „von links nach rechts“ bzw. „von rechts nach links“ anzuzeigen.
WYSIWYG
GefaltetChromatin
David
WYSIWYG