In welche Richtung wird eine Sequenz in Datenbanken geschrieben?

In vielen Datenbanken werden die DNA-Sequenzen für Proteine ​​als eine Folge von a,t,g,c angegeben, ohne anzugeben, ob von 5' oder von 3' ausgegangen wird. Auch ist nicht angegeben, ob es sich um den kodierenden oder nicht kodierenden Strang handelt.

Liegt es daran, dass alle Sequenzen nur von 5' bis 3' des codierenden Strangs geschrieben sind?

Gibt es eine bestimmte Datenbank, die Sie im Sinn haben und die mehrdeutig ist?
@James Ich habe einen Code geschrieben, der das #g-#c an jeder Position für ein E. coli-Genom berechnet. Es soll eine bestimmte Variation zeigen, wenn man in 5 'bis 3'-Richtung geht. Ich habe mich gefragt, ob das Genom (im Wesentlichen die Zeichenfolge, die ich habe) von 5 'bis 3' reicht oder nicht. Sorry, wenn es zu auffällig war. Ich bin neu dabei.

Antworten (2)

Direktionalität

Es ist tatsächlich Konvention, Nukleinsäuresequenzen in der 5'- bis 3'-Richtung darzustellen.

Dies wird im IUPAC/IUB-Dokument über Abkürzungen und Symbole für Nukleinsäuren, Polynukleotide und ihre Bestandteile angedeutet , obwohl es nicht ausdrücklich erwähnt wird – vermutlich, weil dies 1974 geschrieben wurde, bevor die großen Nukleinsäure-Datenbanken eingerichtet wurden.

Strand

Im Allgemeinen können Sie nichts darüber aussagen, auf welchem ​​Strang sich ein bestimmtes Merkmal befindet. Sie müssen sich auf den Kontext oder die Dokumentation für die jeweilige Datenbank beziehen, die Sie verwenden.

Ich bevorzuge den Begriff "Sinnstrang" gegenüber "Codierstrang", wie in einem anderen Beitrag erklärt . Dies hat jedoch nur in einem begrenzten Satz von Umständen in Bezug auf mRNA Bedeutung, insbesondere unter Berücksichtigung von cDNA-Kopien von eukaryotischen mRNAs. Nur wenn der Kontext darauf hindeutet, kann man davon ausgehen, dass der dargestellte Strang ein „Sinnstrang“ ist.

Das Problem ergibt sich aus der Tatsache, dass für alle (oder fast alle) Genome verschiedene Gene auf verschiedenen Strängen der DNA lokalisiert sind – das Chromosom hat keinen einzigartigen „Sinnstrang“ oder „kodierenden Strang“ . Somit sind für DNA-Sequenzen in einer Datenbank wie Genbank folgende Möglichkeiten möglich:

  • Die dargestellte DNA-Sequenz codiert kein Protein oder strukturelle RNA.
  • Die dargestellte DNA-Sequenz enthält Gene auf beiden Strängen.

Ein Beispiel für Letzteres finden Sie im Sample GenBank Record , das zum Verständnis der Merkmalsanmerkung in DNA-Sequenzeinträgen in GenBank herangezogen werden sollte . Dieser 5028-bp-Hefechromosomeneintrag codiert zwei Gene. Die erste, AXL2, ist kommentiert:

 gene            687..3158
                 /gene="AXL2"

Die zweite, REV7, ist kommentiert:

 gene            complement(3300..4037)
                 /gene="REV7"

Dies weist darauf hin, dass das Gen REV7, wenn es in Richtung von 5' nach 3' präsentiert wird, auf dem Komplement des präsentierten Strangs liegt.

@ArjunDevdas Wenn dies Ihre Frage beantwortet hat, können Sie sie als akzeptiert markieren, indem Sie auf das Häkchen klicken.
Fantastische Aussage "Das Chromosom hat keinen einzigartigen 'Sinnstrang' oder 'kodierenden Strang'". Tatsächlich gibt es jede Menge solcher Missverständnisse rund um die DNA. Eine andere fast ähnliche Fehlinterpretation ist zu schreiben "In der DNA ist ein Strang 3' bis 5' und ein anderer Strang 5' bis 3'". Es macht nur Sinn, wenn wir "3' bis 5' von links nach rechts" schreiben. Ansonsten gibt es weder einen solchen "3'-zu-5'-Strang", noch einen "5'-zu-3'-Strang".

Die Konvention besteht darin, den Sense-Strang von 5' bis 3' bereitzustellen.