Ich habe kein Fachwissen in Biologie, bin Datenwissenschaftler und würde gerne wissen, ob es aus biologischer Sicht sinnvoll ist, Daten (SNP-Daten) zu analysieren, die von einem einzelnen Chromosom und nicht von allen 22 Chromosomen stammen , um das Risiko einer bestimmten Krankheit vorherzusagen.
Soll ich zwingend Daten von allen Chromosomen verwenden? Warum?
Vielen Dank. Und sorry, wenn es eine sehr grundlegende Frage ist, aber ich würde das wirklich gerne verstehen.
Sie können ein einzelnes Chromosom analysieren. Alle Bioinformatik-Tools, die ich kenne, erlauben das. Berücksichtigen Sie nur die Reads, die dem gewünschten Chromosom (oder einem beliebigen Segment des Genoms) zugeordnet sind. Die meisten Sequenzierungsexperimente der nächsten Generation sequenzieren jedoch das gesamte Genom und nicht nur ein einzelnes Chromosom. Sie werden am Ende nur Informationen verlieren, wenn Sie andere Chromosomen nicht berücksichtigen.
Angenommen, Sie möchten zusätzlich zur Antwort von @WYSIWYG die Produktion eines bestimmten Proteins A analysieren , das von Gen A auf einem Chromosom A produziert wird . Ihre Daten sind beispielsweise Luminanz-/Fluoreszenzwerte, die aus der Markierung dieses spezifischen Proteins stammen. Aber um diesen Effekt der Produktion vorherzusagen (für welchen Zeitraum diese Werte höher sein könnten, wie in einem Vorhersagemodell), könnte sich das Gen/der Faktor, der das Gen A aktivieren könnte , auf einem anderen Chromosom B befinden . Bis Sie die Aktivität davon kennen, werden Sie nicht in der Lage sein, die Produktion davon genau vorherzusagen.
In einem Regressions-/Baummodell werden Ihre wird kategorisch/kontinuierlich sein und die Aktivität der beeinflussenden Gene (B) zeigen, während die Aktivität von Gen A abhängig ist .
Hoffe das hilft.
mgvaldes
mgvaldes
WYSIWYG
mgvaldes