Ich bin Informatiker und fange an, mich mit Biologie zu beschäftigen. Mein letztendliches Ziel ist es, verschiedene Arten von Zellen mit einem Computerprogramm zu modellieren. Im Moment versuche ich nur, ein paar kleinere Schritte zu machen.
Zuerst habe ich ein vollständiges menschliches Genom von http://hgdownload.cse.ucsc.edu/downloads.html#human heruntergeladen . Es gibt eine FASTA-Datei für jedes Chromosom.
Dann habe ich ein Java-Programm geschrieben, das FASTA-DNA-Sequenzen in die entsprechende Aminosäurekette umwandeln kann.
Als nächstes ließ ich mein Programm nach dem "Start"-Code (ATG) und den "Stop"-Codes (TAA, TAG, TGA) suchen.
Jetzt habe ich also Sequenzen von Aminosäuren, die sich theoretisch zu Proteinen falten könnten. Aber bevor ich anfange, in die Proteinfaltung einzutauchen, wollte ich versuchen zu überprüfen, ob die Schritte, die ich bisher unternommen habe, korrekt durchgeführt wurden. Ich habe einige wichtige menschliche Gene in einer Online-Datenbank nachgeschlagen und ihre Aminosäuresequenzen gefunden. Dann durchsuchte ich die Daten meines Programms nach diesen Sequenzen und bestätigte, dass sie da waren. Das Gen befand sich jedoch an einer anderen Basenpaarstelle als laut Datenbank angegeben.
Dies führte mich zu einigen Fragen, die ich bisher nicht beantworten konnte, und hoffentlich können die Leute hier helfen, etwas Licht ins Dunkel zu bringen.
Ich weiß, dass es viele verschiedene öffentlich zugängliche Genome gibt. Vielleicht unterscheidet sich die UCSC-Datei, die ich heruntergeladen habe, von der, die von der Gendatenbank verwendet wird. Wie stark unterscheiden sich die einzelnen Genome voneinander und auf welche Weise unterscheiden sie sich?
Bei dem Versuch, diese erste Frage zu beantworten, wollte ich ein paar Genome von der 1000genomes-Website herunterladen und einige Vergleiche anstellen, aber ich war mir nicht sicher, welche Dateien ich herunterladen sollte. Jede der Dateien beginnt entweder mit ERR oder SRR und ich bin mir nicht sicher, was das bedeutet. Dies ist der Ordner, in dem ich gerade suche: ftp://ftp-trace.ncbi.nih.gov/1000genomes/ftp/data/HG00239/sequence_read/
Nehmen wir an, ich versuche, ein weißes Blutkörperchen zu modellieren. Woher weiß ich, welche Teile des Genoms für diesen Zelltyp in Proteine umgewandelt werden?
Tut mir leid, wenn irgendetwas, was ich gesagt habe, keinen Sinn ergibt. Wie gesagt, meine Expertise liegt in der Programmierung, nicht in Biologie/Genetik.
Nein, Ihr Ansatz wird nicht funktionieren, Sie nehmen eine sehr vereinfachte Sicht auf ein äußerst komplexes System. Einige der Probleme, die Sie ignorieren, sind:
Gene (eukaryotische Gene sowieso) werden gespleißt , um mRNA zu produzieren, ein Prozess, der Introns entfernt und nur die Exons übrig lässt . Wenn Sie nur die gesamte Chromosomendatei übersetzen, erhalten Sie Rauschen.
Das Spleißen ändert auch den Frame , in den ein Gen eingelesen wird. Sie erwähnen in Ihrer Frage überhaupt keine Frames, aber Sie können nicht mit Sequenzen arbeiten, es sei denn, Sie beschäftigen sich damit.
Viele Gene (die meisten sogar bei einigen Arten) werden alternativ gespleißt . Ein Gen kann zu mehreren Proteinsequenzen führen. Welches zu einem bestimmten Zeitpunkt produziert wird, kann von einer Vielzahl von Faktoren abhängen, die vom reinen Zufall über Umweltbedingungen bis hin zum Zelltyp reichen, in dem das Gen exprimiert wird.
Gene können auf beiden DNA-Strängen vorhanden sein und ein Gen auf dem +-Strang kann mit einem Gen auf dem --Strang überlappen. In manchen Fällen können sie sich sogar auf demselben Strang überlappen ( verschachtelte Gene ). Sie müssen beide Stränge auf codierende Sequenzen überprüfen.
Sie gehen davon aus, dass alle Codierungssequenzen mit ATG beginnen (die meisten, nicht alle), und Sie scheinen davon auszugehen, dass ein ATG immer eine Codierungssequenz beginnt. Ein bestimmtes Gen kann Dutzende oder Hunderte von ATG-Codons haben, wie können Sie wissen, welches als START-Codon verwendet wird?
Der Prozess der Identifizierung der Teile des Genoms, die in Protein übersetzt werden, ist nicht trivial. Es ist Gegenstand unzähliger Doktorarbeiten, zum Beispiel meiner. Es gibt viele Programme (Genprädiktoren), die speziell dafür entwickelt wurden, Gene in genomischen Sequenzen nachzuweisen. Nachdem ich viele Jahre damit verbracht habe, mit ihnen zu arbeiten, kann ich Ihnen versichern, dass Sie sie nicht einfach an einem Nachmittag zusammenzaubern können. Sie neigen dazu, sehr komplexe Modelle von codierenden vs. nicht codierenden Sequenzen zu beinhalten und sind viel ausgefeilter, als einfach nach START- und STOP-Codons zu suchen. Zu versuchen, eine zu schreiben, ohne viel mehr über Biologie zu wissen, als Sie scheinen, ist nur Zeitverschwendung.
Ihre konkreten Fragen sind aufgrund der oben genannten Punkte grundsätzlich irrelevant. Trotzdem lauten die Antworten:
Sie variieren, aber nicht viel. Bei gut annotierten Genomen wie dem menschlichen sind die Unterschiede vernachlässigbar. Das ist jedoch nicht der Grund, warum Sie seltsame Ergebnisse haben, wie ich oben erklärt habe.
Alle öffentlichen FTP-Sites haben in der Regel eine README-Datei, die erklärt, was die bereitgestellten Dateien sind. Sie sollten die entsprechende README-Datei von ftp://ftp-trace.ncbi.nih.gov/1000genomes/ftp/ lesen.
Die Beantwortung dieser Frage bringt Ihnen einen Nobelpreis ein. Es gibt einfach keine Möglichkeit vorherzusagen, welche Gene in einer bestimmten Zelle aktiviert werden. Wir verstehen noch nicht einmal annähernd, wie eine Zelle funktioniert, aber ich kann Ihnen sagen, dass es nicht von der Sequenz abhängen wird, Sie werden niemals anhand ihrer DNA vorhersagen können, ob ein Gen in einer bestimmten Zelle aktiv ist allein die Reihenfolge. Es hängt von verschiedenen Dingen ab, einschließlich dem Methylierungszustand des Gens , und ist größtenteils eine emergente Eigenschaft der Komplexität der Zelle (denken Sie an verschiedene Proteine, die miteinander interagieren und zur Aktivierung eines Gens führen). Das Beste, was Sie tun können, ist, eine Liste von Genen zu erhalten, von denen bekannt ist, dass sie aus der Literatur aktiv sind.
Zusammenfassend schlage ich vor, dass Sie sich, wenn Sie etwas so Komplexes wie das Modellieren einer Zelle machen möchten, zunächst die Zeit nehmen und grundlegende Biologie studieren, damit Sie das System, das Sie zu modellieren versuchen, ein bisschen besser verstehen. Die Zelle ist nicht nur ein äußerst komplexes System, das wir noch nicht vollständig verstehen, sie ist auch nicht vollständig deterministisch und enthält viel Stochastik, die Sie anscheinend vollständig ignorieren.
Warum sollten Sie sich die Mühe machen, Proteine schlecht anhand der DNA-Sequenz vorherzusagen, wenn Sie genauso gut das manuell kuratierte menschliche Proteom hätten herunterladen können?
Zu deinen Fragen:
Fragen Sie nach menschlichen Genomen oder Genomen im Allgemeinen? Die überwiegende Mehrheit der Varianz in menschlichen Genomen liegt in der nichtkodierenden Sequenz. Was Genome im Allgemeinen betrifft, so unterscheiden sie sich in so ziemlich jeder erdenklichen Weise.
Ich denke, diese Dateien sind qualitätsgefilterte Illumina-Lesevorgänge. SRA = Sequence Read Achieve. SRR = SRA RUN Beitritt. ERA = EMBL-SRA. ERR = ERA RUN Beitritt.
Sie sollten sich Transkriptomikdaten ansehen. Solche Dinge in silico vorherzusagen, ist derzeit so gut wie rückgängig zu machen.
Alan Boyd
satnam
Chris
Devashish Das
satnam
Kanadier
Terdon
WYSIWYG