Welche Länge haben die kürzesten DNA-Stränge, die im Genom einer bekannten Person nicht vorhanden sind, und wie lang sind sie?
Und gibt es eine Online-Datenbank, mit der ich das herausfinden könnte?
Das menschliche Genom enthält weniger als 4 16 -Basenpaare, also muss es selbst nach Einbeziehung eines Faktors von 2 für die beiden Stränge und eines weiteren Faktors, um eine gewisse genetische Variation zu ermöglichen, sicherlich einen 17-Basen-Strang geben, der in keinem der beiden Stränge des Genoms zu finden ist .
Nun, 4 17 Bit sind zwei Gigabyte, was heutzutage problemlos in den Speicher eines typischen Desktop-Computers passt. Ein einfacher und effizienter Algorithmus zum Auffinden einer solchen Zeichenfolge wäre also, ein Array von 4 17 Bit einzurichten und sie alle zu initialisieren Null, und iterieren Sie dann einfach über das gesamte Genom (einschließlich aller bekannten Variationen), nehmen Sie jede 17-Basen-Untersequenz (und ihr Komplement), ordnen Sie sie Ganzzahlen zur Basis 4 zu und setzen Sie die Bits im Array an den Positionen, die durch diese Ganzzahlen gegeben sind zu eins.
Sobald Sie fertig sind, entsprechen alle verbleibenden Null-Bits Zeichenfolgen, die nicht im Genom gefunden werden. Genauer gesagt, der längste aufeinanderfolgende Block von Null-Bits gibt Ihnen die kürzeste Basiszeichenfolge, die nicht im Genom vorhanden ist.
Das wäre eigentlich nicht allzu schwer zu finden. Ein gängiger Algorithmus beim Genomaufbau nimmt zunächst DNA-Abschnitte und findet alle vorhandenen Teilstränge der Länge k. (Diese sind als k-mere bekannt, und der Algorithmus erstellt dann die Anordnung basierend darauf, wie sich k-mere überlappen.) Bei einem gegebenen Genom ist es also nicht so schwierig, alle k-mere einer bestimmten Länge zu finden.
Wie Ilmaris Antwort betont, gibt es definitiv k-mere mit 17 Basen, die in einer DNA-Reihe von der Größe des menschlichen Genoms nicht existieren. Angesichts der Menge an repetitiven Inhalten, die in tatsächlichen Genomen vorhanden sind, wird die tatsächliche kürzeste Zeichenfolge mit ziemlicher Sicherheit weniger als 17 Basenpaare betragen.
Sequenzen, die nicht in einem Genom vorkommen, werden „Nullomere“ genannt .
Dieser Artikel behauptet, dass es keine 10-bp-Sequenzen gibt , die nicht im menschlichen Genom vorkommen, und 80 11-bp-Sequenzen , die dies nicht tun, und zitiert diese Veröffentlichung .
Niko
Konrad Rudolf
Niko
Rik Smith-Unna
Konrad Rudolf
inf3rnr