Was ist die Strangspezifität eines Referenzgenoms?

Es ist eine einfache Frage, aber ich bin auf viele Leute gestoßen, die diese Frage haben: Ist das Referenzgenom positiv oder negativ? In der Tat hatte ich hitzige Auseinandersetzungen über das gleiche Problem.

Also hier ist es, all diese Fragen zur Ruhe zu bringen.

Ist das Referenzgenom ein positiver oder ein negativer Strang? Und warum so.

Kustav. Danke für Ihre Bemühungen; es ist durchaus lobenswert. IMO-Q/A wie diese, die als Referenz dienen sollen, können in ein Community-Wiki umgewandelt werden . Es macht Posts leicht bearbeitbar, ohne dass viele Wiederholungen erforderlich sind. Die Kehrseite ist, dass Sie keine Reputationspunkte erhalten. Es ist nur ein Vorschlag und es liegt an Ihnen, ob Sie das tun möchten oder nicht.
Fertig! Diese Option ist mir vorher nicht aufgefallen!
@WYSIWYG — Warum ist diese Frage ein Community-Wiki? Sie ist ungenau und basiert auf einer falschen Annahme, wie meine Antwort deutlich macht.
@David Der Beitrag klang wie eine beliebte Frage, auf die eine maßgebliche Antwort gegeben werden kann, und deshalb habe ich CW vorgeschlagen. Übrigens ist die Annahme nicht ganz falsch.

Antworten (3)

Zunächst einmal wird die Referenzgenomstrangspezifität als Sense (Positivstrang) oder Antisense (Negativstrang) bezeichnet. Betrachten wir nun die Sequenzierung von Daten oder FASTQ-Dateien. Wenn wir Lesevorgänge ausrichten, hat eine resultierende SAM- oder BAM-Datei eine Spalte, die Stranginformationen angibt, wir sehen normalerweise einen + oder - Strang.

Für mehr Hintergrundinformationen zu den Strangnamen hier eine etwas falsche Anmerkung aus dem Wiki-Artikel unter Sinn (Molekularbiologie)

Die Strangnamen hängen tatsächlich davon ab, in welche Richtung Sie die Sequenz schreiben, die die Informationen für Proteine ​​​​(die "Sinn" -Informationen) enthält, nicht davon, welcher Strang oben oder unten ist (das ist willkürlich). Die einzige echte biologische Information, die für die Markierung von Strängen wichtig ist, ist die Position der 5'-Phosphatgruppe und der 3'-Hydroxylgruppe, da diese Enden die Richtung der Transkription und Translation bestimmen. Eine Sequenz 5' CGCTAT 3' ist äquivalent zu einer Sequenz, die als 3' TATCGC 5' geschrieben ist, solange die 5'- und 3'-Enden notiert sind. Wenn die Enden nicht beschriftet sind, geht die Konvention davon aus, dass die Sequenz in der 5'- bis 3'-Richtung geschrieben ist. Watson-Strang bezieht sich auf den oberen Strang von 5' bis 3' (5' → 3'), während sich der Crick-Strang auf den unteren Strang von 5' bis 3' bezieht (3' ← 5' ).[4] Sowohl Watson- als auch Crick-Stränge können entweder Sense- oder Antisense-Stränge sein, abhängig von dem Gen, dessen Sequenzen in der Genomsequenzdatenbank angezeigt werden. Beispielsweise definiert YEL021W, ein Alias ​​des URA3-Gens, das in der NCBI-Datenbank verwendet wird, dass dieses Gen im 21. offenen Leserahmen (ORF) vom Zentromer des linken Arms (L) von Hefe (Y) Chromosom Nummer V (E ) und dass der für die Expression kodierende Strang der Watson-Strang (W) ist. YKL074C definiert den 74. ORF links vom Zentromer von Chromosom XI und bezeichnet den codierenden Strang des Crick-Strangs (C). Ein weiterer verwirrender Begriff, der sich auf „Plus“- und „Minus“-Strang bezieht, wird ebenfalls häufig verwendet. Unabhängig davon, ob der Strang ein Sense-Strang (positiv) oder ein Antisense-Strang (negativ) ist, ist die Standardabfragesequenz im NCBI BLAST-Alignment der „Plus“-Strang. [4] Sowohl Watson- als auch Crick-Stränge können entweder Sense- oder Antisense-Stränge sein, abhängig von dem Gen, dessen Sequenzen in der Genomsequenzdatenbank angezeigt werden. Beispielsweise definiert YEL021W, ein Alias ​​des URA3-Gens, das in der NCBI-Datenbank verwendet wird, dass dieses Gen im 21. offenen Leserahmen (ORF) vom Zentromer des linken Arms (L) von Hefe (Y) Chromosom Nummer V (E ) und dass der für die Expression kodierende Strang der Watson-Strang (W) ist. YKL074C definiert den 74. ORF links vom Zentromer von Chromosom XI und bezeichnet den codierenden Strang des Crick-Strangs (C). Ein weiterer verwirrender Begriff, der sich auf „Plus“- und „Minus“-Strang bezieht, wird ebenfalls häufig verwendet. Unabhängig davon, ob der Strang ein Sense-Strang (positiv) oder ein Antisense-Strang (negativ) ist, ist die Standardabfragesequenz im NCBI BLAST-Alignment der „Plus“-Strang. [4] Sowohl Watson- als auch Crick-Stränge können entweder Sense- oder Antisense-Stränge sein, abhängig von dem Gen, dessen Sequenzen in der Genomsequenzdatenbank angezeigt werden. Beispielsweise definiert YEL021W, ein Alias ​​des URA3-Gens, das in der NCBI-Datenbank verwendet wird, dass dieses Gen im 21. offenen Leserahmen (ORF) vom Zentromer des linken Arms (L) von Hefe (Y) Chromosom Nummer V (E ) und dass der für die Expression kodierende Strang der Watson-Strang (W) ist. YKL074C definiert den 74. ORF links vom Zentromer von Chromosom XI und bezeichnet den codierenden Strang des Crick-Strangs (C). Ein weiterer verwirrender Begriff, der sich auf „Plus“- und „Minus“-Strang bezieht, wird ebenfalls häufig verwendet. Unabhängig davon, ob der Strang ein Sense-Strang (positiv) oder ein Antisense-Strang (negativ) ist, ist die Standardabfragesequenz im NCBI BLAST-Alignment der „Plus“-Strang.

Obwohl es richtig ist, wenn es heißt

  1. Watson = Sinn = Plus Stränge
  2. Crick = Antisense = Negative Stränge

Eine zufriedenstellende Antwort/Konvention wird in diesem PMC-Artikel bereitgestellt/vorgeschlagen, der die Terminologie der Watson- und Crick-Stränge behandelt

Nachfolgend einige interessante Auszüge aus der Veröffentlichung:

Der früheste Hinweis, den wir auf den „Watson-Strang“ und den „Crick-Strang“ finden konnten, ist etwas ironisch und stammt aus zwei Veröffentlichungen von Wacław Szybalski und Kollegen aus dem Jahr 1967. Sie banden die beiden DNA-Stränge des Phagen λ an das synthetische Polynukleotid Poly(IG), das eine Affinität zu Cytosin-reichen Regionen hat. Anschließend trennten sie die beiden Stränge anhand der Dichte, die durch die Menge an gebundenem Poly(IG) bestimmt wurde. In einem Cäsiumchlorid-Dichtegradienten war der Strang mit mehr gebundenem Poly(IG) dichter und schwerer als sein Komplement. Da der „dichte“ Strang Cytosin-reich war, nannten ihn Szybalski und Kollegen den „C-Strang“. Logischerweise hätte daher der komplementäre Strang, der reich an Guanin war, der "G-Strang" sein sollen. Stattdessen wurde es "W-Strang" getauft.

Die Autoren stellen also fest, dass die Stränge ihre Terminologiereise mit vertauschten Rollen begannen, wobei der Crick-Strang den schweren Strang (mit IG) und der Watson-Strang den leichteren festlegte.

Sie stellen auch fest, dass die heutige Terminologie des WC-Modells nicht willkürlich auf der aktuellen horizontalen Zeichnungskonvention basiert, bei der ein Strang oben und der andere unten platziert wird.

Sie schlugen auch eine typische Konvention vor, die heute befolgt wird. Ob es an ihrem Vorschlag lag, ist eine ganz andere Sache, aber außerhalb des Rahmens dieser Frage.

Angesichts des Aufwands, der bereits für die Standardisierung solcher Datenbanken aufgewendet wurde, und ihres Einflusses auf andere Disziplinen glauben wir, dass die genomische Definition von Watson- und Crick-Strängen die größte Masse hinter sich hat. Insbesondere halten wir die eindeutige Verwendung der Saccharomyces-Genomdatenbank für am nützlichsten. Im ersten Teil unseres Vorschlags ist das Zentromer ein Bezugspunkt, der ein Chromosom in zwei Arme ungleicher Länge teilt. Das Chromosom ist so ausgerichtet, dass der kürzere Arm links und der längere Arm rechts ist. Darüber hinaus hat der obere Strang sein 5'-Ende am linken (kurzarmigen) Telomer und sein 3'-Ende am rechten (langarmigen) Telomer. Dieser Strang ist der Watson-Strang. In ähnlicher Weise hat der untere Strang sein 5'-Ende am rechten Telomer und sein 3'-Ende am linken Telomer und ist der Crick-Strang.

und später...

Wenn es letztendlich unmöglich ist, Watson- und Crick-Stränge anhand biologischer Eigenschaften zu unterscheiden, dann schlagen wir vor, dass Watson sich auf den willkürlich als Referenz in einer Datenbank verwendeten Stand (dh den „Plus“-Stand) und der Crick-Strang auf sein Komplement beziehen sollte

Aber kommen wir zurück zu Sequenzierungsdaten oder FASTQ-Dateien. Wenn wir Lesevorgänge ausrichten, hat eine resultierende SAM- oder BAM-Datei eine Spalte, die Stranginformationen angibt, wir sehen normalerweise einen + oder - Strang.

Was darauf hindeutet, dass das Produkt entweder von den Watson- (positiven) oder den Crick- (negativen) Strängen stammt. Beispielsweise ist ein Read eigentlich das umgekehrte Komplement des Produkts, aber da Sie während der Bibliotheksvorbereitung einen PCR-Schritt durchführen, geht diese bestimmte Information verloren, und daher neigen die nachgelagerten Analyseprotokolle dazu, die gesamten Loci zu berücksichtigen, an denen sich ein einzelnes Produkt ausrichtet .

Der Unterschied zwischen strangspezifischer Sequenzierung und nicht-strangspezifischer Sequenzierung wird hier behandelt .

Der gegenwärtige Stand dieser Antwort scheint die für genbezogene Zwecke geeignete Terminologie mit der für chromosomenbezogene Zwecke geeigneten zu verwechseln. Gen-relativ verwendet Sense/Antisense (oder Coding/Template), während Chromosomen-relativ Forward/Reverse (oder Plus/Minus) verwendet. Ein Forward-Strang enthält sowohl Sense- als auch Antisense-Sequenzen. Siehe die Antwort von Bio_X2Y hier für eine genaue und prägnante Beschreibung.
Es tut mir leid, dass ich über @mgkrebbs hinausgehen und sagen würde, dass sowohl die Frage als auch diese Antwort Unsinn sind. Ich bin mit Community-Wikis nicht vertraut, aber dies sollte definitiv keine Standardreferenz sein. Ich habe eine Antwort geschrieben, in der erklärt wird, warum.

Das +und -ist eine bioinformatische Klassifikation. Die Referenzsequenz ist standardmäßig die +und alle Gene in der entgegengesetzten Orientierung sind als annotiert -.

Bei linearen eykaryotischen Chromosomen liegt die Referenzgenomsequenz in der Orientierung des Chromosoms (basierend auf einer älteren zytogenetischen Zuordnung; normalerweise ist der kurze Arm 5').

Bei Prokaryoten schätze ich, dass der Ursprung der Replikation der Beginn des Referenzgenoms ist ( Eisen et al., 2000 ).

Ich würde "Bioinformatik-Klassifizierung" durch "Dateibezeichnung" ersetzen. GenBank-Dateien und dergleichen sind für Menschen lesbar, haben also absolut nichts mit Informatik zu tun, und ich glaube nicht, dass eine Klassifizierung erforderlich ist.

Antworten

Es gibt keinen positiven oder negativen Strang für ein Genom (Referenz oder anderes), aus dem einfachen Grund, dass die Genome fast aller Organismen Gene in beiden Orientierungen enthalten und daher jeder Strang Gene enthält, deren Sequenz in der ist Sense- und Antisense-Richtung in Bezug auf die mRNA.

Die Ausnahme bilden einzelsträngige RNA-Viren, bei denen ein einzelner Strang als mRNA fungieren kann. Hier wird hauptsächlich die „+“- und „–“-Nomenklatur verwendet – um zu unterscheiden, welcher Strang im Virusgenom verwendet wird.

Ich habe dieses Thema zuvor in meinen Antworten auf verwandte Fragen zur Sequenzrichtung in Datenbanken und Leserahmen angesprochen .

Weitere Klarstellung: Wo beginnen Referenzgenome und auf welchem ​​Strang?

Um die Antwort auf diese Frage zu finden, sollten Sie sich die Dokumentation in der Datenbank für das jeweilige interessierende Genom ansehen. Soweit mir bekannt ist, gilt jedoch im Allgemeinen Folgendes. (Andere können das vielleicht verbessern.)

  1. In Bakterien- und Plasmidgenomen beginnt die Sequenz normalerweise am (einzelnen) Replikationsursprung und setzt sich in die Richtung fort, in der die Replikation erfolgt, rechts vom Ursprung geschrieben. Der in der Datenbank dargestellte Strang ist derjenige, der mit einem 5'-Ende links an diesem Ursprung beginnt.
  2. In gut untersuchten eukaryotischen Genomen gibt es eine erkennbare zytochemische Asymmetrie der Chromosomen (in Bezug auf die Bandierung von Heterochromatin und in einigen Fällen von „Armen“), und es gibt eine Konvention, ein Ende „links“ und eins „rechts“ zu bezeichnen '. In den Referenzgenomen beginnt die Sequenz von der herkömmlich betrachteten linken Seite des Chromosoms und stellt die DNA-Sequenz des Strangs dar, der das 5'-Ende hat. Ich gebe unten ein Beispiel dafür, wie Genbank die „umgekehrte“ Richtung von Genen mit dem Begriff „Komplement“ angibt.
  3. Bei einzelsträngigen RNA-Viren – bei denen die „+“- und „–“-Nomenklatur verwendet wird – ist die Sequenz „+“, beginnend am 5′-Ende.
     Genkomplement (11566..11952)
                     /locus_tag="YAL065C"
     CDS-Komplement (11566..11952)
                     /locus_tag="YAL065C"
                     /note="Yal065cp"
                     /codon_start=1
                     /inference="nicht-experimentelle Beweise, keine zusätzlichen
                     Details aufgezeichnet"
                     /product="Vermeintliches Protein unbekannter Funktion; hat
                     Homologie zu FLO1; möglicherweise pseudogen"
                     /protein_id="NP_009335.1"
                     /db_xref="SGD:S000001817"
                     /db_xref="GI:6319252"
                     /db_xref="GeneID:851232"
                     /translation="MNSATSETTTNTGAAETTTSTGAAETKTVVTSSISRFNHAETQT
                     ASATDVIGHSSSVVSVSETGNTKSLITSGLSTMSQQPRSTPASSIIGSSTASLEISTY
                     VGIANGLLTNNGISVFISTVLLAIVW"
     Gen 12047..12427
                     /locus_tag="YAL064W-B"
                     /db_xref="GeneID:851233"
     CDS 12047..12427
                     /locus_tag="YAL064W-B"
                     /note="Yal064w-bp"
                     /codon_start=1
                     /inference="nicht-experimentelle Beweise, keine zusätzlichen
                     Details aufgezeichnet"
                     /product="Pilzspezifisches Protein unbekannter Funktion"
                     /protein_id="NP_009336.1"
                     /db_xref="SGD:S000002141"
                     /db_xref="GI:6319253"
                     /db_xref="GeneID:851233"
                     /translation="MAGEAVSEHTPDSQEVTVTSVVCCLDSVVEIGHHVVYSVVTPLI
                     VAVLIDTMAGEAVLEHTSDSQEEIVTTVVCSVVPLVCFVVSVVCFVISVVEIGHHVVY
                     SVVAPLTVTVAVETIAEEMDSVHT"

[Beispiel eines Teils der Genbank-Datei (NC_001133), der zeigt, wie die Direktionalität von zwei Genen mit entgegengesetzten Orientierungen mit dem Begriff „Komplement“ angegeben wird.]

Nachtrag: Bioinformatik-Programme

Wie @WYSIWYG in seiner Antwort angibt, geben bestimmte Bioinformatikprogramme, die Gentabellen erstellen, ihre Richtung mit „+“ oder „–“ an, um „von links nach rechts“ bzw. „von rechts nach links“ anzuzeigen.

Es gibt jedoch eine natürliche Richtung in Abhängigkeit von der Replikationsrichtung.
@JackAidley — Richtung der Replikation? Dies mag für Bakterien gelten, aber nicht für Eukaryoten. Aber obwohl es nicht unbedingt die Frage war und das Poster schon lange nicht mehr da ist, habe ich etwas darüber hinzugefügt, wo die "Referenzgenome" beginnen.
@WYSIWYG - Ich verstehe Ihren Standpunkt, dass + und - in den Datendateien verwendet werden, aber die Frage des Posters "Ist das Referenzgenom positiv?" zeigt deutlich, dass er das nicht gemeint hat, ansonsten ist die Antwort das triviale '+'. Und die Begriffe + Strang und – Strang wurden in der molekularen Virologie verwendet, bevor die Nukleinsäuresequenzierung erfunden wurde. Obwohl ich also Programme zum Lesen von GenBank-Dateien geschrieben habe und mit dieser Bezeichnung vertraut bin, habe ich nie gehört, dass sie als + Strang bezeichnet werden . Die andere Antwort geht auch davon aus, dass der Poster von "Sinn" -Strängen spricht, obwohl er eher tangential abläuft.
"... nie gehört, dass sie als + Strang bezeichnet werden ..." Ich habe angeblich nur "minus" gesehen, das von einem Datenblatt verwendet wird (hier auf Stackexchange gezeigt; ich könnte mich darauf beziehen), da der Minusstrang die Vorlage ist in der Technik verwendet wird, beziehen sich Datenbanken auf den Minus-, nicht auf den "Codierungsstrang"/Plus-Strang?