Statistiker verwirrt über den genauen SNP-Datentyp

Ich habe einen statistischen (nicht biologischen) Hintergrund und bin sehr verwirrt darüber, was genau die "Daten" sind, die mit einem SNP verbunden sind. Im Folgenden erkläre ich die Dinge so gut ich kann – bitte korrigieren Sie mich, wenn ein Punkt falsch oder anderweitig unklar ist. Angenommen, wir arbeiten mit Menschen, da sich das Folgende je nach Spezies ändert. (Nehmen Sie an, dass alle interessierenden Fälle biallelisch sind.)

Wenn ein Locus ein Allel auf mindestens einem Chromosom hat, wird die Messung AA, Aa oder aa als SNP bezeichnet (ausgesprochen „snip“). Daher sind SNPs in statistischer Sprache dreistufige Faktoren – dies sind die Daten, die einem SNP zugeordnet sind . Wie bereits gesagt, wenn der Faktor 1 Level hat (dh es ist nur aa oder nur AA), dann ist es kein SNP.

Manchmal scheint es für Menschen, als ob die Leute sagen, ein SNP sei eigentlich nur ein Allel (also ein zweistufiger Faktor, a oder A). Wie ist das möglich? Messen Menschen manchmal nur ein Allel statt beide, um den Genotyp zu erhalten?

Könnten Sie die Quelle angeben, wo sie sich nur auf ein Allel beziehen?
@Hachiloni Es gibt keine einzige Quelle, aber dies ist ein Beispiel: journals.plos.org/plosone/article?id=10.1371/… . Siehe den Abschnitt, der mit „Zweitens vergleichen wir drei SNP-Codierungen …“ beginnt.
Sie haben Ihr Wissen über SNPs auf bewundernswerte Weise dargelegt, mit Ausnahme einer wichtigen Sache. Sie geben nicht an, wofür SNP steht. Der Name beschreibt das Konzept: Single Nucleotide Polymorphism. Ein Polymorphismus ist buchstäblich ein Unterschied in der Form (hier ein Unterschied in der physischen Form) eines Objekts. Das Objekt ist die DNA-Sequenz eines Gens, und der Unterschied liegt in einem einzigen Nukleotid. Es wird nicht dadurch definiert, ob die Allele Aa, AA oder aa sind – nur durch die Tatsache, dass an dieser Position unterschiedliche Basen gefunden werden (im Allgemeinen 2, könnten aber 3 oder 4 sein). Machen Sie mit Ihren Statistiken, was Sie wollen.
Danke, @David. Das ist ein sehr hilfreicher Punkt - ich habe völlig ignoriert, woher der Begriff "SNP" kommt. (Ich habe die Antwort bearbeitet, um darauf hinzuweisen, dass ich mich auf den biallelischen Fall konzentriere.) Ich konzentriere mich hier nicht darauf, was mit den Daten zu tun ist (dh welche Statistiken zu tun sind), sondern nur darauf, wie die Daten selbst aussehen. Ich glaube, das ist eine biologische Frage, da sie sicherlich nicht statistisch ist. Wenn die Daten "a" oder "A" wären, würden Sie denken, dass das SNP-Daten sind? Oder müssen die Daten "aa", "Aa" oder "AA" sein, um SNP-Daten zu sein?
Ich weiß nicht. Aber sicherlich gibt es dazu eine umfangreiche Literatur. Ich habe (überfliegende) Artikel in Nature über große vergleichende Genomprojekte gelesen, die sich auf das Vorkommen von SNPs beziehen. Im Februar war einer. Ich habe den Eindruck, dass sie sich nur ansehen, ob an bestimmten Stellen unterschiedliche Basen gefunden werden und wie viele in den von ihnen entnommenen Genome vorhanden sind. Sie müssten wirklich die Verweise auf ihre Methoden finden und selbst überprüfen (es sei denn, jemand anderes hier weiß es).
@David Nochmals vielen Dank für Ihre hilfreiche Perspektive.

Antworten (4)

SNP ist kein spezifischer Datentyp, sondern ein biologisches Phänomen. Die Abkürzung "Single Nucleotide Polymorphism" bedeutet nur, dass es eine Variabilität (zwischen Individuen) in einem einzelnen Buchstaben an einer bestimmten Position in der DNA-Sequenz gibt. Es hängt vom Sprecher ab, wie er die Variabilität beschreibt; ob sie sich auf die möglichen Sequenzen konzentrieren und zum Beispiel sagen "An dieser Position gibt es nur A oder T" oder sie sich auf mögliche menschliche Genotypen konzentrieren und alle Kombinationen (AA, AT, TT) buchstabieren.

Was als SNP-Daten gilt, hängt ganz von der Forschungsfrage, dem verwendeten Organismus (diploid/haploid/polyploid) und dem experimentellen Design ab.

Der Artikel, den Sie in Ihrem Kommentar verlinken, verwendet Haferlinien und keine Individuen aus der Auszuchtpopulation. Hafer wie Arabidopsis ist von Natur aus in hohem Maße selbstbestäubend, sodass die Erzeugung hochgradig homozygoter Inzuchtlinien relativ einfach ist. In diesem Fall ist es für die Forscher vernünftig, nur AA- oder aa-Genotypen in jeder Linie zu erwarten.

Bearbeiten: Da Sie nach weiteren Beispielen gefragt haben, bei denen sich der Forscher auf Allele anstelle von Genotypen konzentriert. Die Verteilung vieler SNP-Genotypen passt zu den Hardy-Weinberg-Gleichungen . Wenn dies der Fall ist, kann die Häufigkeit von Genotypen aus einer Allelhäufigkeit in der Bevölkerung berechnet werden. Der Forscher könnte fragen: "Unterscheidet sich die Häufigkeit des Allels in Population/Gruppe 1 von Population/Gruppe 2?" Sie erheben Daten von Personen in Gruppe 1 (AA, AA, Aa, Aa, aa) und Gruppe 2 (Aa, Aa, aa, aa, aa). Sie beschließen, jedes Allel als unabhängige Messung zu behandeln (unabhängig von der Person, von der es stammt) und fragen die Daten ab: Gruppe 1 (AAAAAAaaaa), Gruppe 2 (AAaaaaaaaa) und führen dann einen einfachen Binomialtest durch, um ihre Frage zu beantworten.

Hinweis: Selbst wenn das Hardy-Weinberg-Gleichgewicht nicht erreicht wird, sind die Fragen zur Allelhäufigkeit immer noch gültige biologische Fragen (mit leicht unterschiedlicher Verwendung/Interpretation im weiteren Verlauf).

Danke. Können Sie andere Beispiele nennen, bei denen es sinnvoll ist, sich nur auf den Wert eines Allels zu konzentrieren (wenn die Ploidie mindestens 2 beträgt), um einen SNP zu bilden? Ihr Argument für das verlinkte Papier scheint zu sein, dass Forscher, die sich für den Genotyp interessieren, nur ein Allel messen können, was interessant ist, aber das Kernproblem umgeht, das ich habe.
Danke für die Aufnahme der interessanten Bearbeitung. Nicht, um Sie hier auszubluten, aber leider aufgrund meines begrenzten biologischen Hintergrunds, ist jede Anspielung, die Sie machen, für mich völlig verloren. Könnten Sie mit Beispielen verdeutlichen, was Sie im letzten Satz beschreiben, wenn HW nicht erfüllt ist?
Ich kann Sie nach dem HW-Prinzip an die Khan-Akademie verweisen . HW hat mehrere Annahmen, von denen jede in einer realen Population nicht zutreffen kann. Was ich damit sagen will, ist, dass es auch in dieser Situation sinnvoll ist, über Allelhäufigkeit zu sprechen. Wenn zum Beispiel eine Art stark selbstbefruchtend ist (wie Hafer), was zu mehr Homozygoten als von HW erwartet führt, können wir immer noch fragen: Ist ein Allel häufiger in zB. Bevölkerung in großer Höhe?

Ich denke, die vorherigen Antworten liefern viele wertvolle und relevante Informationen, aber lassen Sie mich zusätzliche Interessenten hinzufügen:

  • Wie bereits erwähnt, ist SNP ein Einzelnukleotid-Polymorphismus , während sich die Notation AA, Aa, aa usw. auf viele andere Arten von Mutationen beziehen kann: Dies könnten beispielsweise ganze Gene sein, die sich an vielen Stellen unterscheiden. Ein weiterer häufiger Mutationstyp sind Insertionen/Deletionen, bei denen einem Gen möglicherweise ganze Segmente fehlen (anstatt verschiedene Nukleotide zu enthalten).
  • SNPs werden in bestimmten Kontexten verwendet, in denen die Veränderung des Genoms unbedeutend ist: z. B. bei der Behandlung eines hoch konservierten menschlichen Genoms oder bei der Behandlung eines variablen Genoms auf einer kurzen Zeitskala, wo nur wenige Veränderungen stattfinden. Dabei nehmen wir das häufigste/ursprünglichste Genom als Referenz und bezeichnen Abweichungen davon als SNPs („snips“). Dies ist nicht immer möglich – z. B. wenn mehrere Allele vorhanden sind (ein einzelnes Nukleotid kann sich in vier Zuständen befinden, A, C, G, T, und all diese müssen möglicherweise berücksichtigt werden, z. B. bei der Analyse der Evolution von Viren ).
  • Je nach Problem kann man die Populationsgenetik eines Organismus in Bezug auf Genotypen oder in Bezug auf Allele diskutieren – selbst wenn ein einzelner Organismus mehrere Allele trägt (z. B. zwei Kopien in einem diploiden Organismus). AA, Aa, aa sind Genotypen, während A, a Allele sind. SNP ist eher eine Änderung des Allels als eines Genotyps. (Aber ich gebe zu, dass die biologische Sprache oft ungenau ist.)
Wow Danke. Das ist unglaublich hilfreich und füllt viele fehlende Lücken für mich.
@ user257566 Ich habe auch einen nicht-biologischen Hintergrund, daher bin ich beim Verständnis dieser Dinge wahrscheinlich auf ähnliche Probleme gestoßen. Für Populationsgenetik empfehle ich auch das kleine Buch von Gillespie. Es ist etwas skizzenhaft, aber möglicherweise einfacher zu durcharbeiten als echtes Pop-Gen-Zeug: amazon.com/Population-Genetics-John-H-Gillespie/dp/0801880092

Lassen Sie mich Ihnen eine Rückseite der Umschlagsberechnung geben. Die Größe des menschlichen Genoms beträgt 3 Milliarden Basenpaare (BP). Es gibt ungefähr 30.000 Gene im menschlichen Genom. Daher würde die Größe eines Gens etwa 100.000 BP betragen (DNA hat nicht codierende Regionen, regulatorische Regionen usw. Auch die Größe eines Gens variiert von einigen hundert BP bis zu mehr als 2 Millionen. Der Einfachheit halber haben wir kann bei dieser Rechnung bleiben). Andererseits gibt es 5 Millionen SNPs im menschlichen Genom. Daher würde alle 600 BP ein SNP vorhanden sein.

Wir können also mit Sicherheit sagen, dass es Gene geben würde, die mehr als einen SNP haben. Mein Vorschlag wäre, wie @BagiM betonte, mikroskopische Konzepte nicht mit makroskopischen zu verwechseln.

Vielen Dank für das Teilen Ihrer Perspektive. Mit "a oder A" meinte ich ein Allel an einem einzelnen Locus, mit "aa oder Aa oder AA" meinte ich ein Allelpaar, das einen Genotyp (bei einem Menschen) darstellt. Könnten Sie erklären, was Sie meinen, wenn Sie zwischen mikroskopisch und makroskopisch wechseln?
SNP ist ein mikroskopisches Konzept und Allele ist ein makroskopisches Konzept. Allel ist ein sehr weit gefasster Begriff, und die molekulare Grundlage dieses Begriffs könnte zahlreich sein (@Vadim hat es in seiner Antwort besprochen). Der Begriff wurde von Mendel selbst geprägt. Auch das lange vor der Entdeckung der DNA. „ein SNP ist eigentlich nur ein Allel“ – ist eine falsche Aussage. Innerhalb eines Allels können mehrere SNPs vorhanden sein.
Vielen Dank für die Klärung meiner Terminologie - das ist sehr hilfreich. Ich beziehe mich speziell auf ein Allel als eine Variante in einem Basenpaar und einen Genotyp (für Menschen) als ein Paar solcher Allele, die immer noch an einem Basenpaar, aber jetzt über zwei Chromosomen liegen. Meine Frage bezieht sich also speziell darauf, welches (zwischen diesen beiden mikroskopischen Dingen) zur Darstellung von SNPs verwendet wird.
Keiner. SNPs sind nicht in Bezug auf zwei Chromosomen definiert. Eine riesige Sammlung von DNA-Sequenzen wird verglichen und es werden spezifische Positionen auf der Sequenz gefunden, die diesen Polymorphismus zeigen (die wir SNPs nennen), während andere Regionen der Sequenz relativ konserviert bleiben.
Ok, mit keiner meinst du ersteres? Die einzelnen Loci?
SNP oder nicht ist etwas unabhängig davon, mit wie vielen Chromosomen oder Allelen man arbeitet. Für mich klingt Ihre Frage nicht gültig. Könnten Sie versuchen, die Frage umzuformulieren? Fragen Sie nach einem bestimmten Allel oder Chromosom? Wenn ja, schlagen Sie bitte in einer Genomdatenbank nach, welche SNPs auf diesem Allel oder Chromosom definiert sind.

Wie bereits gesagt, wenn der Faktor 1 Level hat (dh es ist nur aa oder nur AA), dann ist es kein SNP.

Wenn es in Ihrer Population Unterschiede in dieser Basis gibt, dann handelt es sich um einen SNP, selbst wenn Sie keinen Heterozygoten betrachten.

Wie auch immer, wenn Sie über ein SNP sprechen, werden die Leute es im Allgemeinen mit seiner Basis bezeichnen, nicht mit dem Namen des Allels, das es erzeugt. (Und tatsächlich werden die Allele oft nicht so einfach wie A und a benannt. Diese Notation ist hilfreich, wenn es um perfekt Mendelsche Genetik-Hausaufgaben der Mittelschule geht, aber in der realen Welt passen die meisten Daten nicht zu diesem Paradigma.

Danke. Diese zitierte Passage besagt tatsächlich, ob es keine Variation gibt (dh ob nur aa oder nur AA beobachtet wurden). Außerdem ist es schon eine Weile her, seit ich auf der Mittelschule war, daher ist es hilfreich zu wissen, was dort für den Kontext behandelt wird. Ich spreche jedoch nicht davon, wie man SNPs benennt (persönlich bin ich mit rs-Nummern dafür vertraut). Stattdessen. Ich spreche davon, welche Werte sie nehmen. Namen für Dinge sind für mich hier hilfreicher als der Begriff, den sie repräsentieren.
Warum sollten Sie Notationen für verschiedene Allele haben, wenn es in keiner Population Unterschiede gibt?