Was ist der Datentyp der DNA-Probe?

Welche Art von Daten erhält man, wenn man die DNA einer Person analysiert? Wenn Sie sie in einer Datenbank speichern möchten, welche Art von Feld benötigen Sie (Text, Zahl, Hex)? Und welche Länge sollte es haben?

Antworten (3)

Angenommen, Sie betrachten Daten, die zur Beschreibung der Unterschiede für ein neues Individuum verwendet werden, im Gegensatz zu einem menschlichen Referenzgenom-Build:

Eine fastq- Datei ist das typische Datenformat eines Sequencers.

Es würde eine Art Textfeld erfordern, da sie selbst für einzelne Lesevorgänge ziemlich groß sein können. Wenn Sie einen bestimmten Sequenzer mit sehr kurzen Lesevorgängen im Sinn hatten, könnten Sie ein Feld mit fester Länge für die Datenspalte verwenden, aber es lohnt sich wahrscheinlich nicht.

Nach der Verarbeitung der Daten werden die Daten derzeit üblicherweise in Form von Variant Call Format-Dateien (einer vcf-Datei ) ausgetauscht, die lediglich Unterschiede zu einem Referenzgenom-Build dokumentieren. Dies passt gut in eine SQL-Tabelle mit relativ kleinen Spalten.

Es wird eine einfache Textfolge sein. Die Länge ist jedoch völlig willkürlich und hängt von der Quelle Ihrer Sequenzdaten ab. Alles von 1 bis zu mehreren Milliarden kann eine gültige Sequenzlänge sein.

Wir könnten besser helfen, wenn Sie erklären, woher die Daten kommen.

Realistischerweise werden Sie das Genom nicht als eine lange Textfolge speichern. Je nachdem, wie Sie die Sequenzierung durchführen, werden Sie wahrscheinlich ohnehin nicht in der Lage sein, sich wiederholende Bereiche aufzulösen.

Viel realistischer ist, dass Sie alle Unterschiede zwischen der Probe und einer Referenzsequenz speichern, auf die Sie sich verlassen können.

Wenn Sie eine Art Genotypisierungschip verwenden, würden Sie die Genotypen an jedem Locus speichern.