Öffentlich zugängliche Genomdaten in Proteine ​​umwandeln

Ich bin Informatiker und fange an, mich mit Biologie zu beschäftigen. Mein letztendliches Ziel ist es, verschiedene Arten von Zellen mit einem Computerprogramm zu modellieren. Im Moment versuche ich nur, ein paar kleinere Schritte zu machen.

Zuerst habe ich ein vollständiges menschliches Genom von http://hgdownload.cse.ucsc.edu/downloads.html#human heruntergeladen . Es gibt eine FASTA-Datei für jedes Chromosom.

Dann habe ich ein Java-Programm geschrieben, das FASTA-DNA-Sequenzen in die entsprechende Aminosäurekette umwandeln kann.

Als nächstes ließ ich mein Programm nach dem "Start"-Code (ATG) und den "Stop"-Codes (TAA, TAG, TGA) suchen.

Jetzt habe ich also Sequenzen von Aminosäuren, die sich theoretisch zu Proteinen falten könnten. Aber bevor ich anfange, in die Proteinfaltung einzutauchen, wollte ich versuchen zu überprüfen, ob die Schritte, die ich bisher unternommen habe, korrekt durchgeführt wurden. Ich habe einige wichtige menschliche Gene in einer Online-Datenbank nachgeschlagen und ihre Aminosäuresequenzen gefunden. Dann durchsuchte ich die Daten meines Programms nach diesen Sequenzen und bestätigte, dass sie da waren. Das Gen befand sich jedoch an einer anderen Basenpaarstelle als laut Datenbank angegeben.

Dies führte mich zu einigen Fragen, die ich bisher nicht beantworten konnte, und hoffentlich können die Leute hier helfen, etwas Licht ins Dunkel zu bringen.

  1. Ich weiß, dass es viele verschiedene öffentlich zugängliche Genome gibt. Vielleicht unterscheidet sich die UCSC-Datei, die ich heruntergeladen habe, von der, die von der Gendatenbank verwendet wird. Wie stark unterscheiden sich die einzelnen Genome voneinander und auf welche Weise unterscheiden sie sich?

  2. Bei dem Versuch, diese erste Frage zu beantworten, wollte ich ein paar Genome von der 1000genomes-Website herunterladen und einige Vergleiche anstellen, aber ich war mir nicht sicher, welche Dateien ich herunterladen sollte. Jede der Dateien beginnt entweder mit ERR oder SRR und ich bin mir nicht sicher, was das bedeutet. Dies ist der Ordner, in dem ich gerade suche: ftp://ftp-trace.ncbi.nih.gov/1000genomes/ftp/data/HG00239/sequence_read/

  3. Nehmen wir an, ich versuche, ein weißes Blutkörperchen zu modellieren. Woher weiß ich, welche Teile des Genoms für diesen Zelltyp in Proteine ​​umgewandelt werden?

Tut mir leid, wenn irgendetwas, was ich gesagt habe, keinen Sinn ergibt. Wie gesagt, meine Expertise liegt in der Programmierung, nicht in Biologie/Genetik.

Ich denke, Sie müssen genauer sein als "Ich habe ein vollständiges menschliches Genom heruntergeladen". War dies eine vollständige Genomsequenz oder ein Satz von FASTA-Sequenzen, die vorhergesagten Proteinen entsprechen?
Eine ganze Genomsequenz. Für jedes Chromosom gibt es eine FASTA-Datei.
Eine Anmerkung zu Ihrer dritten Frage: Welche Gene exprimiert werden, hängt vom Zustand der Zelle ab, und das ist besonders kompliziert für Immunzellen. Diese können verschiedene Aktivierungszustände durchlaufen, die alle unterschiedlich sind. Sie können versuchen, Daten aus Genexpressionsexperimenten in solchen Zellen zu finden und diese Daten zu verwenden. Datensätze sind im "Gene Expression Omnibus" verfügbar.
Sie haben das zentrale Dogma des Lebens völlig ignoriert . Sie haben die RNA nicht berücksichtigt.
Devashish, ich habe eine Zuordnung vom DNA-Codon zur Aminosäure. Ich glaube nicht, dass ich irgendetwas mit der RNA tun muss. Wenn ich zum Beispiel das TGC-Codon sehe, kartiere ich es auf Cystein
Schon mal an Introns gedacht? Auch wird nicht jedes Start/Stopp-Codon transkribiert.
Als allgemeine Anmerkung stellen Sie bitte nicht mehrere Fragen zu einem einzigen Beitrag. Bitte teilen Sie in Zukunft stattdessen jede Frage in einen eigenen Beitrag auf. Ich habe hier alle drei beantwortet, da Ihre Fragen in diesem speziellen Fall im Grunde irrelevant sind, da das Hauptproblem eine enorme Unterschätzung der Komplexität der Aufgabe ist, die Sie versuchen. Viel Glück!
Welchen Organismus untersuchen Sie?

Antworten (2)

Nein, Ihr Ansatz wird nicht funktionieren, Sie nehmen eine sehr vereinfachte Sicht auf ein äußerst komplexes System. Einige der Probleme, die Sie ignorieren, sind:

  • Gene (eukaryotische Gene sowieso) werden gespleißt , um mRNA zu produzieren, ein Prozess, der Introns entfernt und nur die Exons übrig lässt . Wenn Sie nur die gesamte Chromosomendatei übersetzen, erhalten Sie Rauschen.

  • Das Spleißen ändert auch den Frame , in den ein Gen eingelesen wird. Sie erwähnen in Ihrer Frage überhaupt keine Frames, aber Sie können nicht mit Sequenzen arbeiten, es sei denn, Sie beschäftigen sich damit.

  • Viele Gene (die meisten sogar bei einigen Arten) werden alternativ gespleißt . Ein Gen kann zu mehreren Proteinsequenzen führen. Welches zu einem bestimmten Zeitpunkt produziert wird, kann von einer Vielzahl von Faktoren abhängen, die vom reinen Zufall über Umweltbedingungen bis hin zum Zelltyp reichen, in dem das Gen exprimiert wird.

  • Gene können auf beiden DNA-Strängen vorhanden sein und ein Gen auf dem +-Strang kann mit einem Gen auf dem --Strang überlappen. In manchen Fällen können sie sich sogar auf demselben Strang überlappen ( verschachtelte Gene ). Sie müssen beide Stränge auf codierende Sequenzen überprüfen.

  • Sie gehen davon aus, dass alle Codierungssequenzen mit ATG beginnen (die meisten, nicht alle), und Sie scheinen davon auszugehen, dass ein ATG immer eine Codierungssequenz beginnt. Ein bestimmtes Gen kann Dutzende oder Hunderte von ATG-Codons haben, wie können Sie wissen, welches als START-Codon verwendet wird?

Der Prozess der Identifizierung der Teile des Genoms, die in Protein übersetzt werden, ist nicht trivial. Es ist Gegenstand unzähliger Doktorarbeiten, zum Beispiel meiner. Es gibt viele Programme (Genprädiktoren), die speziell dafür entwickelt wurden, Gene in genomischen Sequenzen nachzuweisen. Nachdem ich viele Jahre damit verbracht habe, mit ihnen zu arbeiten, kann ich Ihnen versichern, dass Sie sie nicht einfach an einem Nachmittag zusammenzaubern können. Sie neigen dazu, sehr komplexe Modelle von codierenden vs. nicht codierenden Sequenzen zu beinhalten und sind viel ausgefeilter, als einfach nach START- und STOP-Codons zu suchen. Zu versuchen, eine zu schreiben, ohne viel mehr über Biologie zu wissen, als Sie scheinen, ist nur Zeitverschwendung.

Ihre konkreten Fragen sind aufgrund der oben genannten Punkte grundsätzlich irrelevant. Trotzdem lauten die Antworten:

  1. Sie variieren, aber nicht viel. Bei gut annotierten Genomen wie dem menschlichen sind die Unterschiede vernachlässigbar. Das ist jedoch nicht der Grund, warum Sie seltsame Ergebnisse haben, wie ich oben erklärt habe.

  2. Alle öffentlichen FTP-Sites haben in der Regel eine README-Datei, die erklärt, was die bereitgestellten Dateien sind. Sie sollten die entsprechende README-Datei von ftp://ftp-trace.ncbi.nih.gov/1000genomes/ftp/ lesen.

  3. Die Beantwortung dieser Frage bringt Ihnen einen Nobelpreis ein. Es gibt einfach keine Möglichkeit vorherzusagen, welche Gene in einer bestimmten Zelle aktiviert werden. Wir verstehen noch nicht einmal annähernd, wie eine Zelle funktioniert, aber ich kann Ihnen sagen, dass es nicht von der Sequenz abhängen wird, Sie werden niemals anhand ihrer DNA vorhersagen können, ob ein Gen in einer bestimmten Zelle aktiv ist allein die Reihenfolge. Es hängt von verschiedenen Dingen ab, einschließlich dem Methylierungszustand des Gens , und ist größtenteils eine emergente Eigenschaft der Komplexität der Zelle (denken Sie an verschiedene Proteine, die miteinander interagieren und zur Aktivierung eines Gens führen). Das Beste, was Sie tun können, ist, eine Liste von Genen zu erhalten, von denen bekannt ist, dass sie aus der Literatur aktiv sind.

Zusammenfassend schlage ich vor, dass Sie sich, wenn Sie etwas so Komplexes wie das Modellieren einer Zelle machen möchten, zunächst die Zeit nehmen und grundlegende Biologie studieren, damit Sie das System, das Sie zu modellieren versuchen, ein bisschen besser verstehen. Die Zelle ist nicht nur ein äußerst komplexes System, das wir noch nicht vollständig verstehen, sie ist auch nicht vollständig deterministisch und enthält viel Stochastik, die Sie anscheinend vollständig ignorieren.

Danke für den ausführlichen Beitrag. Ich werde dies als Referenz für die Zukunft verwenden und die von Ihnen erwähnten Themen untersuchen.
@nether Sie sind willkommen und es tut mir leid, auf Ihre Parade und alles zu pissen. Ich empfehle Ihnen wirklich, einen Biologen zu finden, mit dem Sie zusammenarbeiten können. Sie unterschätzen stark die Komplexität der Aufgabe, die Sie versuchen möchten. Erstens ist es mit dem heutigen Wissen einfach unmöglich. Auch wenn es möglich wäre, blicken Sie auf eine mehrjährige Arbeit eines Teams hochqualifizierter Experten zurück. Sie mögen ein brillanter Programmierer sein, aber das reicht hier nicht aus. Außerdem erfinden Sie das Rad neu, es gibt bereits viele Programme, die das tun, was Sie geschrieben haben (Gene identifizieren und Sequenzen übersetzen).
Weil es für alles ein xkcd gibt ... xkcd.com/793
@terdon Ich hatte den Post vom Typ Piss-on-Parade / What-your-doing-is-impossible erwartet, aber ich bin froh, dass deiner zusätzlich nützliche Informationen enthielt. Die Leute sagten mir, dass Dinge unmöglich seien, als ich versuchte, Software für den Finanzsektor zu entwickeln. Jetzt wird meine Software von Banken auf der ganzen Welt verwendet. Es ist nicht so, dass ich mich in einen Raum gesetzt und es alleine gemacht hätte – viele Experten in der Finanzwelt haben geholfen, es möglich zu machen. Ich habe vor, hier dasselbe zu tun, weshalb ich mich an Experten für Computerbiologie gewandt und bereits einige Treffen organisiert habe :) Zusammenarbeit ist der Schlüssel
@nether ah, gut, das freut mich zu hören. An dem Thema wird tatsächlich viel gearbeitet . Was (heute) unmöglich ist, ist ein voll funktionsfähiges Modell einer Zelle zu erstellen. Unmöglich, nicht weil Sie nicht gut genug sind, sondern weil wir die Zelle einfach nicht gut genug verstehen. Das könnte sich in Zukunft ändern, was sich nie ändern wird, ist, dass die DNA-Sequenz dafür niemals ausreichen wird. Die Sequenz ist nur eine Teilmenge der Informationen, die zum Modellieren einer Zelle erforderlich sind. Übrigens, vielleicht möchten Sie BioPerl oder BioPython nachschlagen, wenn Sie mit dieser Art von Daten arbeiten.
@terdon BioJava für mich ;) Und was ist damit? cell.com/abstract/S0092-8674(12)00776-3
@nether genau das meine ich. Beachten Sie, dass i) sie M. genitalium verwendeten , den einfachsten dem Menschen bekannten Organismus, der um Größenordnungen einfacher ist als ein "weißes Blutkörperchen" (so etwas gibt es übrigens nicht, es gibt Dutzende von Zelltypen, die so genannt werden) ii) Sie haben verdammt viel mehr Informationen als die DNA-Sequenz verwendet und iii) trotz alledem ist das Modell extrem begrenzt. Es kann bestimmte Verhaltensweisen vorhersagen, kann jedoch nicht als "wahre" Darstellung der lebenden Zelle angesehen werden. Mein Hauptpunkt ist, dass es unmöglich ist, eine Zelle anhand ihrer DNA-Sequenz zu modellieren.
Ich werde nur ein bisschen erklären, warum es unmöglich ist. Sie können eine Proteinsequenz aus einer DNA-Sequenz vorhersagen. Es ist sehr schwierig, die Proteinstruktur aus ihrer Sequenz vorherzusagen. Schwieriger ist es, vorherzusagen, womit das gefaltete Protein interagieren wird. usw...

Warum sollten Sie sich die Mühe machen, Proteine ​​schlecht anhand der DNA-Sequenz vorherzusagen, wenn Sie genauso gut das manuell kuratierte menschliche Proteom hätten herunterladen können?

Zu deinen Fragen:

  1. Fragen Sie nach menschlichen Genomen oder Genomen im Allgemeinen? Die überwiegende Mehrheit der Varianz in menschlichen Genomen liegt in der nichtkodierenden Sequenz. Was Genome im Allgemeinen betrifft, so unterscheiden sie sich in so ziemlich jeder erdenklichen Weise.

  2. Ich denke, diese Dateien sind qualitätsgefilterte Illumina-Lesevorgänge. SRA = Sequence Read Achieve. SRR = SRA RUN Beitritt. ERA = EMBL-SRA. ERR = ERA RUN Beitritt.

  3. Sie sollten sich Transkriptomikdaten ansehen. Solche Dinge in silico vorherzusagen, ist derzeit so gut wie rückgängig zu machen.

Ich denke, das OP bedeutete Unterschiede zwischen verschiedenen Baugruppen desselben Genoms. Zum Beispiel Unterschiede in den Genkoordinaten zwischen UCSC und EnsEMBL.