Analyse über einzelne Chromosomendaten

Question

Analyse über einzelne Chromosomendaten

mgvaldes

Ich habe kein Fachwissen in Biologie, bin Datenwissenschaftler und würde gerne wissen, ob es aus biologischer Sicht sinnvoll ist, Daten (SNP-Daten) zu analysieren, die von einem einzelnen Chromosom und nicht von allen 22 Chromosomen stammen , um das Risiko einer bestimmten Krankheit vorherzusagen.

Soll ich zwingend Daten von allen Chromosomen verwenden? Warum?

Vielen Dank. Und sorry, wenn es eine sehr grundlegende Frage ist, aber ich würde das wirklich gerne verstehen.

Antworten (2)

Analyse über einzelne Chromosomendaten

WYSIWYG · Answer 1

WYSIWYG

Sie können ein einzelnes Chromosom analysieren. Alle Bioinformatik-Tools, die ich kenne, erlauben das. Berücksichtigen Sie nur die Reads, die dem gewünschten Chromosom (oder einem beliebigen Segment des Genoms) zugeordnet sind. Die meisten Sequenzierungsexperimente der nächsten Generation sequenzieren jedoch das gesamte Genom und nicht nur ein einzelnes Chromosom. Sie werden am Ende nur Informationen verlieren, wenn Sie andere Chromosomen nicht berücksichtigen.

mgvaldes

OK, verstanden. Sie sagen also, dass es letztendlich auf das endgültige Ziel der Analyse ankommt, oder? In meinem Fall möchte ich die Daten (Datensatz 1: Personen mit Lungenkrebs und Datensatz 2: Personen mit Typ-2-Diabetes) analysieren, um ein endgültiges Vorhersagemodell zu erstellen. Die Idee ist auch, eine Merkmalsauswahl durchzuführen und relevante/signifikante SNPs zu erkennen, um später verwandte Gene zu identifizieren und zu sehen, ob sie mit der Krankheit zusammenhängen oder nicht. Die ultimative Frage wäre also, sollte ich bei komplexen Krankheiten wie Lungenkrebs und Typ-2-Diabetes Daten von allen Chromosomen analysieren oder nur von einigen?

mgvaldes

Auch wenn Werkzeuge die individuelle Analyse eines einzelnen Chromosoms erlauben, ist es biologisch korrekt? Ist es aus biologischer Sicht sinnvoll? Hängt es von der analysierten Krankheit ab? Ich frage, weil Biologen mir gesagt haben, dass die Schlussfolgerungen der Analyse, die ich mache, nur aus der Analyse von Daten aller Chromosomen stammen können, aber ich würde gerne die biologische Rechtfertigung dafür wissen. Hoffe, ich habe mich klar ausgedrückt. Danke schön!

WYSIWYG

@mgvaldes Es wäre keine gute Idee, sich auf ein Chromosom zu beschränken, es sei denn, Sie haben einen guten Grund dafür (z. B. X-chromosomale Gene). Die biologische Begründung dafür ist, dass komplexe Merkmale von vielen Genen abhängen, die über verschiedene Chromosomen verstreut sind.

mgvaldes

Perfekt. Da wollte ich sicher sein, da ich kein Biologieexperte bin. Vielen Dank!

Kiritee Gak · Answer 2

Angenommen, Sie möchten zusätzlich zur Antwort von @WYSIWYG die Produktion eines bestimmten Proteins A analysieren , das von Gen A auf einem Chromosom A produziert wird . Ihre Daten sind beispielsweise Luminanz-/Fluoreszenzwerte, die aus der Markierung dieses spezifischen Proteins stammen. Aber um diesen Effekt der Produktion vorherzusagen (für welchen Zeitraum diese Werte höher sein könnten, wie in einem Vorhersagemodell), könnte sich das Gen/der Faktor, der das Gen A aktivieren könnte , auf einem anderen Chromosom B befinden . Bis Sie die Aktivität davon kennen, werden Sie nicht in der Lage sein, die Produktion davon genau vorherzusagen.

In einem Regressions-/Baummodell werden Ihre $X's$ wird kategorisch/kontinuierlich sein und die Aktivität der beeinflussenden Gene (B) zeigen, während die Aktivität von Gen A abhängig ist $Y$ .

Hoffe das hilft.

Ich wende ML-Lerntechniken konkret auf SNP-Daten von allen 22 Chromosomen von zwei verschiedenen Personentypen an (Datensatz 1: Lungenkrebs, Datensatz 2: Typ-2-Diabetes). Die letzte Idee besteht darin, ein Vorhersagemodell für jeden Anwendungsfall zu erstellen und sich auf Merkmalsauswahltechniken zu verlassen, um relevante SNPs im Zusammenhang mit der Krankheit zu identifizieren. Lesen Sie die anderen Kommentare, die ich zur Antwort von @WYSIWYG gegeben habe.

Analyse über einzelne Chromosomendaten

mgvaldes

Antworten (2)

WYSIWYG

mgvaldes

mgvaldes

WYSIWYG

mgvaldes

Kiritee Gak

mgvaldes

Der Versuch, das große Ganze hinter der DNA-Sequenzierung, dem Alignment und der Suche zu verstehen

Parameter der Varianten-Calling-Analyse [geschlossen]

In Bezug auf die FTP-Site des NCBI

Sequenzierung des gesamten Genoms vs. Sequenzierung des gesamten Exoms

Identifizierung, welche SNPs in TFBS (Hefe) sitzen

Zuordnung einer Mutation zu bekanntem SNP, 3' UTR, miR

GEN-Dateiformat, SNPs und Allele

Warum nur heterogene SNVs zur Validierung mit Genotypisierungs-Arrays?

Einzelnukleotid-Polymorphismen und Krankheiten

Warum eine Imputation durchführen?