GEN-Dateiformat, SNPs und Allele

Ich habe ein paar Fragen, auf die ich scheinbar keine direkte Antwort bekomme, in Bezug auf das .genDateiformat und auch auf die Biologie im Allgemeinen.

Das .genDateiformat spezifiziert SNPs für Einzelpersonen.

Da jedem SNP Allel A und Allel B zugeordnet sind, gehe ich davon aus, dass die Datei nur verursachende SNPs und keine verknüpften SNPs enthält, da erstere im Gen enthalten sind und letztere nicht. Da jeder SNP in der Datei ein zugeordnetes Gen hat (eigentlich Genotyp, eine Kombination aus Allel A und B). Richtig?

SNP zeigen eine einzelne Position im Genom an, warum kann also ein Allel mit einer Sequenz identifiziert werden, die größer als eins ist? Oder zeigt es nur einen Ausgangspunkt an, an dem jedes Allel eine unterschiedliche Länge haben kann, die größer als 1 sein kann?

Allele sollten eine bestimmte Variante eines bestimmten Gens sein, aber an anderen Stellen sah ich die Definition "Allele sind alternative Formen einer bestimmten Sequenz.". Letzteres scheint logischer, wenn man sich die .genDatei ansieht, aber es widerspricht der ersten Aussage. Also, was ist die richtige Definition?

BEARBEITEN:

Nach weiteren Recherchen kam ich zu Ergebnissen, die in einer Beispielzeile für .genDatei demonstriert wurden:

--- rs200405949 10023   CCAA    C   0.249   0.745   0.007   0.005   0.84    0.155 ...

---- Chromosomennummer, die fehlt, weil sie aus dem Dateinamen erschlossen werden kann, die zu jedem Chromosom gehört

rs200405949- ID des SNP - ein einzelnes Nukleotid, das zwischen Proben/Personen variieren kann; es gibt normalerweise nur zwei mögliche Variationen, aber in seltenen Fällen gibt es eine dritte oder sogar vierte - die in ignoriert werden .gen?

10023- Koordinate/Position des Allelpaars (Basenpaar) innerhalb des Chromosoms. Entweder bestehen sowohl das Haupt- als auch das Nebenallel aus einem einzigen Nukleotid (in diesem Fall könnte die SNP-Koordinate/Position innerhalb des Chromosoms mit dieser Position übereinstimmen), oder eines der Allele hat mehr als ein Nukleotid und das andere Allel ist das dasselbe wie das erste Nukleotid des vorherigen Allels - weil wir nur eine eindeutige Sequenz benötigen und alle anderen Kombinationen gleicher Nukleotidlänge automatisch das andere Allel sind?

CCAA- (normalerweise?) Hauptallel - das häufigste Allel (speziell in diesem Zusammenhang ein einzelnes Nukleotid oder eine Sequenz von Nukleotiden) für einen bestimmten SNP (oder in der Nähe davon, dh irgendwie damit verbunden) IN der betreffenden Kohorte, dh das Kohorte sind alle Proben/Personen im Experiment/ .gender Datei (daher ist die Anzahl der Proben gleich der Anzahl der Triplett-Spalten nach der 5. Spalte). Es tritt in mehr als 50 % der Fälle im VERGLEICH zum Minor-Allel auf. Im Vergleich zum Minor-Allel beginnen beide mit C - sollten sie sich an dieser SNP-Position nicht per Definition unterscheiden? Außerdem wird hier mehr als ein Nukleotid angegeben - warum? SNP hat immer ein Nukleotid...

C- (normalerweise?) kleineres Allel - das zweithäufigste Allel (speziell in diesem Zusammenhang ein einzelnes Nukleotid). Die SNP-Site kann bi-allelisch sein (meistens ausgewählt/untersucht), in diesem Fall sind die Haupt- und Nebenallele die einzig möglichen Allele, aber einige Sites sind tri- oder quad-allelisch – in diesem Fall haben wir keine Informationen für die dritte (und vierte) Allelvariante, aber wir wissen, dass sie noch seltener sind als die Haupt- und Nebenallele?

0.249 0.745 0.007 0.005 0.84 0.155 ...- Jedes nachfolgende Triplett von Werten zeigt dann die Wahrscheinlichkeiten von homozygoten CCAA/CCAA-, heterozygoten CCAA/C- und homozygoten C/C-Genotypen (Allelpaaren) bei diesem SNP jeweils für eine Probe/Person an (jedes Allel ist auf einem der vorhanden). zwei Kopien des besagten Chromosoms, entweder mütterlicherseits oder väterlicherseits). Wenn einer der drei Werte den Wert 1 hat und die anderen beiden den Wert 0 haben, wurde dieses tatsächliche SNP (irgendwie) vermutlich getestet, daher können wir 100% sicher sein, um welches Allelpaar es sich handelt, und wenn nicht, dann waren es die Wahrscheinlichkeiten irgendwie abgeleitet (z. B. von anderen, irgendwie verwandten SNPs vielleicht). Was ist, wenn sie weniger als eins ergeben? Oder was, wenn alle drei Werte 0 sind?

Sind meine Schlussfolgerungen richtig? Und was ist mit der offenen Frage?

Basierend auf sciencedaily.com/terms/allele.htm kann jedes Gen durch einen Satz von Allelen dargestellt werden, und Allele sind nur alternative Formen einer bestimmten Einzelnukleotidsequenz; und da sie 2 verschiedene Formen für das gegebene Genom besitzen können (was zu 3 unterschiedlichen Kombinationen führt), werden sie SNPs genannt. Neben Allelen gibt es auch andere Zwischen-Einzelnukleotide im Gen, aber diese sind für die gesamte Population eines bestimmten (z. B. menschlichen) Genoms gleich. WAHR?

Antworten (2)

Soweit ich finden konnte, .genwurde das Dateiformat für SNPs für das IMPUTE2- Programm entwickelt und soll im Allgemeinen ein flexibles Dateiformat für SNP-Daten sein. Die Beschreibung des Dateiformats soll hier dokumentiert werden (mehrere Seiten verweisen auf diesen Link), leider ist dieser Link defekt / die Seite wurde entfernt. Ich habe jedoch einige andere Beschreibungen des Formats gefunden:

Im GEN-Format wird jeder SNP als Satz von drei Wahrscheinlichkeiten dargestellt, die den Allelpaaren AA, AB, BB entsprechen.

von hier

Das Genfile enthält Prädiktorwerte, eine Zeile pro Prädiktor.
--gen-skip gibt an, wie viele Kopfzeilen (normalerweise 0 oder 1);
--gen-headers gibt an, wie viele Header-Spalten (normalerweise 0 bis 5) vorhanden sind.
--gen-probs sollte 0, 1, 2, 3 oder 4 sein:
0 - Haplotypen - Prädiktorwerte sollten "0 0", "0 1", "1 0" oder "1 1" sein 1
- Dosierungen - Prädiktoren bereitstellen die (erwartete) Anzahl von A-Allelen
2 – zwei Probs – liefern Wahrscheinlichkeiten, AA oder AB zu sein
3 – drei Probs – liefern Wahrscheinlichkeiten, AA, AB oder BB zu sein
4 – vier Probs – liefern Wahrscheinlichkeiten, AA, AB, BB oder NA zu sein , wobei A und B die A1- und A2-Allele sind

von hier

Wie finswimmer bereits in seiner Antwort schrieb, ist es sehr wichtig, sich darüber im Klaren zu sein, was im Zusammenhang mit SNPs als Allel gilt. Für das .genDateiformat ist dies die Identität der Base an einer bestimmten (SNP)-Position, und da Menschen ein diploides Genom haben, kann das Allel eines bestimmten Individuums eine von drei Versionen sein (normalerweise als AA, AB und BB bezeichnet).

Zu deinen konkreten Punkten:

Da jedem SNP Allel A und Allel B zugeordnet sind, gehe ich davon aus, dass die Datei nur verursachende SNPs und keine verknüpften SNPs enthält, da erstere im Gen enthalten sind und letztere nicht. Da jeder SNP in der Datei ein zugeordnetes Gen hat (eigentlich Genotyp, eine Kombination aus Allel A und B). Richtig?

  • Die Allele in der .genDatei beziehen sich auf die jeweiligen SNPs, nicht auf Gene.
  • Es gibt keinen Grund anzunehmen, dass eine bestimmte .genDatei nur bestimmte SNPs enthält; wenn doch, liegt das nicht am Datenformat.
  • Die SNPs in einer .genDatei müssen im Allgemeinen nicht mit einem Gen verknüpft sein.
Ich habe ein Beispiel hinzugefügt, können Sie es kommentieren und die verbleibenden meiner Fragen beantworten?

Die Definition von allelehängt vom Kontext ab.

Wenn Sie sich die DNA einer einzelnen Person ansehen, haben Sie normalerweise zwei Kopien von jedem autosomalen Chromosom. Jede Kopie wird als allele. Wenn Sie sich die Sequenz an einer bestimmten Position ansehen, können Sie sagen, dass sich eine der beiden Basen auf dem einen Allel befindet und die andere Base auf dem anderen Allel.

Daneben gibt es eine Definition, alleleob man sich viele Personen oder eine ganze Bevölkerung ansieht. Hier nennen Sie eine allele"als alternative Formen einer bestimmten Sequenz".

Aber wie wird SNP, das auf ein einzelnes Nukleotid hinweist, mit einem Haupt- und einem Nebenallel assoziiert, da beide länger als ein Allel sein können? Bedeutet dies, dass ausgehend von der spezifischen SNP-Position entweder das Major- oder das Minor-Allel beginnen kann?