Wie finde ich eine vollständige menschliche Genomdatei?

Ich versuche herauszufinden, wie ich eine Datei herunterladen kann, die die vollständige menschliche DNA-Sequenz darstellt. Das Format ist mir nicht so wichtig – ich kann C++-Code schreiben, um es zu analysieren. FASTA scheint jedoch ein einfaches Format zu sein. Was ich noch nicht herausgefunden habe, ist, wo ich eine vollständige Datei finden kann – ich habe scheinbar Teilmengen von Genen oder andere Sequenzen oder einzelne Chromosomen gefunden, aber gibt es nicht 46 Chromosomen, die eingeschlossen werden müssen, oder sind einige dieser Duplikate (dh 22 Chromosomen + 2 Geschlechtschromosomen)?

Auf dieser Seite habe ich diese Liste von Dateien unter „Human > Genome assembly: GRCh38“ gefunden, aber sie scheint nach Chromosom oder so etwas aufgeschlüsselt zu sein? Wenn ja, würde ich diese zusammenführen? Mein Ziel ist es, alle Buchstaben per Projektor an einer Wand anzuzeigen, und ich möchte in der Lage sein, darauf zu zeigen und jemandem zu sagen, dass dies die gesamte DNA für einen Menschen ist (keine Teilmenge). Um es noch einmal zu überprüfen, ist es eine "Genom-Assemblierung", die ich möchte, oder? Übrigens interessieren mich Allelvarianten im Moment nicht.

Bitte bedenken Sie bei Ihrer Antwort, dass ich mit vielen Fachausdrücken nicht vertraut bin, danke.

Danke für all die tollen Antworten! Sie waren eigentlich ALLE hilfreich für mich.

Antworten (5)

Das National Center for Biotechnology Information hat einen Link zu einer Genom-FTP-Site – auf dieser Seite gibt es eine Datei mit der Bezeichnung .../genomes/H_sapiens (dies ist ein direkter Link zu diesem Verzeichnis).

Darin befinden sich zahlreiche Dateien. Aus der README -Datei:

Zu den Sequenzdaten gehören Chromosomen, Contigs, RNAs und Proteine, die durch die Projekte NCBI Reference Sequence und NCBI Genome Annotation generiert wurden. Hier werden auch Kartendaten bereitgestellt, die in der Map Viewer-Ressource dargestellt werden.

Nur etwa 770M? Ich hatte es größer erwartet

Nicht-Biologe springt hier ein.

@swbarnes2 hat einen guten Punkt, der festhält, dass (ungefähr) 3-Giga-Nukleotide zum Anzeigen "an einer Wand" (wie Sie sagen) selbst mit einem guten Projektor eine schwierige Aufgabe sein wird. Sie benötigen mehrere Projektoren und eine höllisch große Wand. (Angenommen, Sie nehmen die kleinste lesbare Polizeieinstellung, bei der jeder Buchstabe einen Platz von 4 * 6 Pixeln einnimmt, was Sie insgesamt auf ~ [227.000 x 342.000] Pixel bringt, also etwa 35.000 HD-Projektoren)

Was mich dazu gebracht hat, darüber nachzudenken, warum Sie so etwas tun möchten. Die plausibelste davon ist: Es handelt sich um eine Art künstlerischer/kultureller Absicht. In einem solchen Fall empfehle ich, anstatt Buchstaben (ATGC) anzuzeigen, sie binär zu codieren (00,01,10,11) und diesen Wertcode für ein farbiges Pixel zu erstellen.

Dadurch erhalten Sie eine quadratische Matrix mit einer Kante von etwa 57.000 Pixeln (die riesig bleibt) aus in 4 Tönen schattierten schwarzen bis weißen Punkten.

Wenn Sie noch weiter gehen wollen, steht Trichromie zur Rettung, lassen Sie Pixel nicht nur für jeweils ein Nukleotid codieren. Lassen Sie sie für jeweils ein "Pseudo-Codon" (Triplett) kodieren. Erstes Nukleotid definiert den roten Farbton, zweites Nukleotid definiert den grünen Farbton, letztes Nukleotid definiert den blauen Farbton. (schlicht und einfach additive Farbe RGB-Zeug).

-BEARBEITEN- In dem Wissen, dass der Begriff des Codons ungültig ist und dass jedes Nukleotid (mit Ausnahme der führenden und nachgestellten 2 jedes Chromosoms) Teil von drei verschiedenen Codons sein könnte (abhängig davon, ob sie sich in einem Intron, Exon oder sogar alternativ gespleißt befinden). Sehen Sie, dass diese Gruppierung nach 3 nicht SO richtig ist.

Warum sich in einem solchen Fall nicht noch mehr Freiheiten nehmen? Gruppieren Sie Ihre Nukleotide in 12 (3 Gruppen von 4), was Ihnen mehr Tiefe in den Farbtönen gibt.

-ENDE DES BEARBEITETEN ABSCHNITTS-

Sie erhalten eine viel schönere und deutlich kleinere Matrix von [30k x 30k] (was Sie immer noch eine große Wand und ein paar HD-Projektoren ~150 kosten wird, aber an diesem Punkt können Sie die Ausgabe mit mehreren Methoden komprimieren und zusammenführen Pixel, aber 150 sind weit weniger als 35000).

Ich weiß, dass ich keine wirklichen Lösungen für die gestellte Frage bringe (aber ich denke wirklich, dass @Omen es ziemlich gut gemacht hat), aber ich habe gespürt, dass es hier vielleicht einen Einblick gibt, der es wert ist, weitergegeben zu werden (auf die Gefahr hin, mich zum Narren zu machen).

Ich denke, eine dynamische Anzeige könnte funktionieren und Segmente gleichzeitig anzeigen ...
Ich habe auch überlegt, zu einem dynamischen Display zu raten (um noch mehr Geld für Projektoren zu sparen ;p), aber es schien entweder selbstverständlich oder außerhalb des erforderlichen Umfangs zu liegen. Dennoch IST es wahrscheinlich die klügste Art, alles anzuzeigen. Es ist, als würde man ein ganzes Buch anzeigen, man sollte in Betracht ziehen, es Seite für Seite anzuzeigen, nicht alles in einem aufgeblähten Block.
Ein kleines Problem ... wir nennen drei Nukleotide im Allgemeinen nicht zusammen ein Codon, es sei denn, sie befinden sich tatsächlich in der codierenden Region eines Gens und in dem Rahmen, der tatsächlich übersetzt wird. Der größte Teil des Genoms wäre nicht in "Codons".
Wie ich in meiner Nachricht schon sagte, bin ich kein Biologe, höchstens ein Bio-Enthusiast. Aber das stimmt in der Tat. Wenn sich Nukleotide in einem Intron befinden (das beim alternativen Spleißen nicht interpretiert wird), dann ja, es ist kein Teil eines Codons. Ich werde meinen Beitrag ändern. Für den von mir beschriebenen Zweck kann es jedoch immer noch Teil eines nicht-semantischen Tripletts sein. Wenn die von mir angegebene Annahme richtig ist, wäre das Gruppieren von Nukleotiden nach beliebigen Zahlen in irgendeiner Weise (solange sie aufeinanderfolgend sind) nicht wirklich wichtig, da dies nicht mehr relevant ist. Die DNA an sich ist nicht SO relevant, sondern die Art und Weise, wie sie transkribiert wird.
Vielen Dank, das ist meine Lieblingsantwort, da sie auf den Punkt bringt, wie ich die Daten verwenden möchte. Ich habe eine andere als die direkteste Antwort auf meine Frage markiert. Ich glaube, ich hatte ein paar Fragen in einem.
Kein Problem, ich bin froh, dass ich Ihnen (auch nur vage) helfen konnte.

aber gibt es nicht 46 Chromosomen oder sind einige dieser Duplikate?

Erstens, während jede Person 2 Kopien jedes Chromosoms hat, sind diese Kopien zu 99% identisch. Es wäre also Verschwendung, das Ganze zweimal zu wiederholen.

Zweitens ist die Technologie so beschaffen, dass es nicht einfach ist, beispielsweise die gesamte Sequenz eines Chromosoms zu generieren, das von ihrer Mutter stammt. Sie erhalten entweder Sängerspuren, die die beiden Sequenzen übereinander zeigen, oder sehr kurze Lesevorgänge, die nicht gemischt sind, aber Sie können nicht sagen, welcher Elternteil welches Fragment erzeugt hat.

Im Allgemeinen hat ein Referenzgenom also nur einen Konsensbuchstaben an jeder Position, auch wenn das biologisch nicht realistisch ist. Es spielt keine große Rolle, was die Referenz ist, solange jeder weiß, dass es nur eine Referenz ist.

Mein Ziel ist es, alle Buchstaben per Projektor an einer Wand anzuzeigen, und ich möchte in der Lage sein, darauf zu zeigen und jemandem zu sagen, dass dies die gesamte DNA für einen Menschen ist (keine Teilmenge).

Kann man so wirklich 3 Milliarden Zeichen darstellen?

Can you really display 3 billion characters like that?Nein: Angenommen, ein Zeichen ist ~0,03 Quadratzoll (ungefähr 12 pt) groß, würde es 14,35 Morgen Wand erfordern, um 3 Milliarden Zeichen anzuzeigen.
Für uns "metrische" Leser, die sich wundern, 14,35 Hektar ~= 58072 m², was wiederum etwas mehr als 5 "große" (internationale Pokale) Fußballfelder sind.

Wenn ich Ihre Frage richtig verstehe, wollen Sie eine einzige Datei, also einen einzigen String, der die Sequenz eines gesamten menschlichen Genoms darstellt. Allerdings gibt es so etwas nicht. Das menschliche Genom ist in 46 verschiedenen Ketten (Chromosomen) gespeichert, und diese Ketten haben keine natürliche Ordnung .

Die zur Bezugnahme auf die Genome verwendeten Nummern basieren auf ihrer Reihenfolge, wenn sie nach Größe angeordnet sind.

Alle Operationen am Genom (z. B. das Kopieren vor der Mitose) erfolgen parallel, wobei Proteine ​​​​an jedem Chromosom einzeln arbeiten.

Wenn Sie ein gesamtes menschliches Genom "ehrlich" darstellen möchten, würde ich sagen, dass Sie am besten 46 separate Zeichenfolgen auf den Projektor legen, die vielleicht parallel zueinander verlaufen wie der Code in der Matrix.

Wenn Sie eine große lange Zeichenfolge anzeigen möchten, ist jede Verkettungsfolge genauso (un)korrekt wie jede andere, also öffnen Sie einfach die Dateien in alphabetischer Reihenfolge und verketten Sie sie alle.

Wenn Sie alle Sequenzen zu einer einzigen Sequenz zusammenführen möchten, laden Sie die Sequenz aller Chromosomen herunter und verketten Sie sie dann. Einfacher Befehl dafür, wenn Sie Linux verwenden:

grep -v ">" chromosome*.fa > entire_genome.txt

Nun ist es sinnvoll, das Genom chromosomenweise aufzutrennen, weil es keine physikalische Verbindung zwischen einem Chromosom und dem anderen gibt. Darüber hinaus gibt es viele Reihenfolgen, in denen Sie die Chromosomen miteinander verketten können, wodurch Sie eine 23!Anzahl von Genomsequenzen erhalten.

Nun sollten Sie beachten, dass all dies zu schwerwiegenden Fehlern führen kann, wenn Sie versuchen, den genomischen Kontext eines Gens zu untersuchen. Also besser chromosomenweise vorgehen.

Wenn ich Sie falsch interpretiert habe und Sie meinten, alle Chromosomen-Fasta-Sequenzen in einer einzigen Datei zu haben, die Sequenzen jedoch nicht zusammenzuführen, dann ist dies ein ziemlich einfacher Befehl.

cat chromosome*.fa > genome.fa

Was Sie jetzt herunterladen, ist eine Referenzsequenz. Sie müssen Varianten usw. für Ihre Daten finden, indem Sie Ihre Ausrichtungsparameter steuern.

Und ich verstehe wirklich nicht, warum Sie es an die Wand projizieren wollen. Es gibt einfachere und bessere Möglichkeiten, das Genom zu analysieren.