Wie groß ist die Wahrscheinlichkeit, dass ein einzelnes menschliches Gen dasselbe Gen eines anderen Menschen hat?

Das menschliche Genom umfasst 3.234,83 ​​Megabasen und enthält ~ 19.000 Gene. Es wurde geschätzt, dass die Genome des Menschen zu 99,9 % identisch sind. Wie wahrscheinlich ist es, dass ein einzelnes Gen von einem Individuum zum anderen variiert? Nehmen Sie eine durchschnittliche Länge für ein Gen von 3 Kilobasen an.

Sind es immer noch 0,01 %, die gleichen wie für das gesamte Genom? Warum haben wir dann die Anzahl der Gene in dieser Übung zusammen mit einer ungefähren Länge?

Antworten (2)

Annahmen

Nehmen wir an, dass wir das gesamte menschliche Genom perfekt aufeinander abstimmen können und berechnen daher solche Identitätsstatistiken.

Nehmen wir an, dass die Identitätswahrscheinlichkeit von 99,9 % für neutrale Sequenzen dieselbe ist wie für kodierende Sequenzen. Diese Annahme ist höchstwahrscheinlich falsch, aber es gibt keine andere Möglichkeit, die Frage mit den uns gegebenen Daten zu beantworten.

Wie lautet die Frage genau?

Deine Hausaufgabenfrage ist leider etwas unklar. Ich weiß nicht, was genau gemeint ist

Wie wahrscheinlich ist es, dass ein einzelnes Gen von einem Individuum zum anderen variiert?

Bedeutet das

Sie nehmen zufällig Proben von zwei Menschen und zufällig Proben von einem Gen. Wie groß ist die Wahrscheinlichkeit einer perfekten Identität dieses Gens?

oder bedeutet es

Sie nehmen zufällig ein Gen, wie groß ist die Wahrscheinlichkeit, dass alle Menschen für dieses Gen identisch sind?

Ich nehme an, es bedeutet das erste.

Schritt für Schritt

Ich werde nach Teilfragen vorgehen, um durch den Denkprozess zu führen! Versuchen Sie, die folgenden Fragen nacheinander zu beantworten, und Sie sollten in der Lage sein, selbst zur endgültigen Antwort zu gelangen

  1. Stichproben Sie zufällig zwei Personen und betrachten Sie zufällig ein Nukleotid in ihrem Genom. Wie groß ist die Wahrscheinlichkeit, dass dieses Nukleotid dasselbe ist?

  2. Stichproben Sie zufällig zwei Personen und betrachten Sie zufällig zwei Nukleotide in ihrem Genom. Wie groß ist die Wahrscheinlichkeit, dass diese beiden Nukleotide gleich sind?

  3. Stichproben Sie zwei Personen nach dem Zufallsprinzip und betrachten Sie nach dem Zufallsprinzip nNukleotide in ihrem Genom. Wie groß ist die Wahrscheinlichkeit, dass diese nNukleotide gleich sind?

  4. Stichproben Sie zwei Personen nach dem Zufallsprinzip und betrachten Sie nach dem Zufallsprinzip nNukleotide in ihrem Genom. Wie groß ist die Wahrscheinlichkeit, dass diese nNukleotide unterschiedlich sind?

  5. Nehmen Sie eine zufällige Stichprobe von zwei Individuen und betrachten Sie zufällig 3000 Nukleotide in ihrem Genom. Wie groß ist die Wahrscheinlichkeit, dass diese 3000 Nukleotide unterschiedlich sind?

Welche Antwort hast du bekommen? Wenn Sie irgendwo stecken geblieben sind, sagen Sie mir bitte wo!

Hinweise

  1. Es macht keinen Sinn, einen Taschenrechner zu verwenden, er wird sowieso irgendwann zurückkehren Infiniteoder !0

  2. Machen Sie sich keine Sorgen, wenn Sie nicht alle Nummern verwenden, die Ihnen gegeben werden!

Hinweis: Ein bescheiden fortgeschrittener Taschenrechner kann dies leicht berechnen, ohne dass es zu Über- oder Unterläufen kommt.
Ich weiß nicht, wie viele Bytes moderne Rechner normalerweise für eine Zahl verwenden, aber ich denke (könnte falsch sein, Sie werden mich korrigieren), dass es ungefähr 4 Kilobyte dauert, um die Umkehrung dieser Zahl zu speichern (unter Vernachlässigung der Dezimalstellen)! Ich habe noch nie gesehen, dass eine solche Zahl in der Informatik verwendet wird, aber ich weiß nicht, welchen Datentyp (und wie viel RAM) fortgeschrittene Taschenrechner normalerweise verwenden.
Remi, anscheinend haben wir ganz andere Berechnungen im Sinn. Es schien mir (und Ihre Antwort schlug mir auch vor), dass die Antwort nur eine einfache Potenzierungsoperation erfordern würde und die beteiligten Zahlen vernünftig wären.
Schade, dass wir die Antwort hier nicht laut geben können, um diese Diskussion voranzutreiben! Wenn das OP sich bemüht, das Problem anhand meiner Hinweise zu lösen, können wir diese Diskussion vorantreiben :)

Die Antwort : 0,25 % der Gene werden unterschiedlich sein

Ich habe die Antwort erhalten, indem ich zwei Genome mit dem folgenden Code simuliert habe:

lengthGenome=3234.83*10^6
numGenes=19000
lengthGene=3000
fracSim=0.999


trialHolder=1:100
for(trial in 1:100){
    genomeA=rep(0,lengthGenome)
    genomeB=rep(0,lengthGenome)
    genomeA[sample(1:lengthGenome,round((1-fracSim)*lengthGenome))]=1
    genomeB[sample(1:lengthGenome,round((1-fracSim)*lengthGenome))]=1
    startGenes=sample(1:lengthGenome,numGenes)
    equalGene=0
    for(i in 1:numGenes){
      equalGene=all(genomeA[startGenes[i]:(startGenes[i]+lengthGene)]==genomeB[startGenes[i]:(startGenes[i]+lengthGene)])+equalGene
    }
    trialHolder[trial]=equalGene/numGenes
}
print(mean(trialHolder))

Um schnell durch den Code zu gehen, erstellen Sie ein Genom der angegebenen Länge und ändern dann 0,01 % des Genoms so, dass es eine Mutation ist und daher dem anderen Genom an derselben Position nicht ähnlich ist. Definieren Sie dann die Startpunkte der angegebenen Anzahl von Genen. Überprüfen Sie für jede Genregion, ob die Gene genau gleich aussehen (wenn eines die Mutation nicht enthält). Verfolgen Sie schließlich einfach den Anteil der Gene, die alle gleich sind.

Ich habe den Code 100 Mal ausgeführt und das Ergebnis gemittelt, es hat eine Weile gedauert. Es gibt wahrscheinlich einen direkteren, wahrscheinlichkeitstheoretischeren Weg, aber ich stelle mir vor, dass das Ergebnis dasselbe wäre.