Ich arbeite an einem Projekt, bei dem ich DNA-Sequenzen nehme und die Codons in Musiknoten übersetze. Ich habe einige gute Ideen, wie man das macht, ich bin mir nur nicht sicher, mit welchen Sequenzen ich arbeiten soll. Meine Fallstudie und viele meiner anfänglichen Recherchen haben gezeigt, dass alles, was größer als ein Protein ist, zu viel ist, um damit zu arbeiten.
Also meine Frage. Wo finde ich Protein-DNA-Sequenzen in einem Standardformat? Ich habe mir NCBI angesehen, aber ich habe keine Ahnung, was ich mir anschaue oder ob ich das richtige Zeug herunterlade. Gibt es einen Link, zu dem ich gehen kann, der eine Liste mit einer Reihe unterschiedlicher Proteinsequenzen enthält, die ich herunterladen kann?
GenBank und RefSeq verfügen über eine riesige Sammlung von DNA-Sequenzen, die im Fasta-Format heruntergeladen werden können. GenBank macht es sehr einfach, nach Sequenzen zu suchen (z. B. unter Verwendung des Organismusnamens), hat aber oft redundante Daten und unterschiedliche Typen (alles von ganzen Chromosomensequenzen über mRNAs bis hin zu Gensequenzen bis hin zu ESTs). RefSeq verfügt über viel sauberere, nicht redundante Daten, kann jedoch etwas mehr Aufwand erfordern, um die gewünschten Sequenzen zu finden. Je nachdem, ob dies Auswirkungen auf Ihr Projekt hat, sollten Sie dies in Betracht ziehen. Auf der RefSeq-Seite können Sie im FTP - Menü auf Genomes klickenum zu sehen, für welche Genome RefSeq-Daten verfügbar sind. Die Fasta-Sequenzen für ein bestimmtes Genom werden in einem eigenen Verzeichnis gespeichert, das möglicherweise nach Chromosom in weitere Verzeichnisse unterteilt ist. Was Sie wollen, sind die Fasta-Dateien (die auf .fa, .fasta, .ffn oder so ähnlich enden), wobei zu beachten ist, dass sie komprimiert sein können (.fa.gz, fasta.gz usw.).
Wenn Sie bereits einen bestimmten Organismus im Sinn haben, können Sie alternativ eine Google-Suche durchführen, um zu sehen, ob das Genom für diesen Organismus sequenziert wurde. Wenn ja, gibt es fast immer eine spezielle Website, auf der Sie DNA-Sequenzen für dieses Genom herunterladen können.
Ein Standardformat wäre das FASTA-Format .
Wenn Sie einige Proteine von Interesse haben, die Sie sich ansehen möchten, können Sie einfach „Nukleotid“ oben auf der NCBI-Seite auswählen, den Namen Ihres Proteins eingeben und dann die FASTA-Schaltfläche unter jedem Ergebnis drücken, an dem Sie interessiert sind.
Wenn Sie nur einen großen Datensatz von DNA-Sequenzen benötigen, die für Proteine kodieren, können Sie beispielsweise die „nt“ -Blast-Datenbank verwenden. (Ich glaube, das sind nur Proteinsequenzen, die nicht ganz sicher sind, ich dachte, es wäre einfacher zu bekommen)
Dies ist eher ein Kommentar, aber zu lang, um ihn in ein Kommentarfeld einzufügen, also füge ich ihn hier ein.
Das ist eine lustige Idee, die Sie da machen. Ich habe eine halbgare Idee (vorausgesetzt, Sie suchen nach Input), ob Sie sie weiter untersuchen möchten - oder nicht ... wenn ich mit dem Schreiben fertig bin, wird mir vielleicht klar, dass es zu dumm ist, aber trotzdem ... lass uns sehen.
Es könnte lustig sein, die Sequenz von zwei Organismen zu nehmen, sagen wir Maus und Mensch, und bestimmte Regionen aufeinander auszurichten – stellen Sie sich vor, das ist wie Klavierspielen, wo die „linke Hand“ die Maussequenz sein könnte und die „rechte Hand“. „ist menschlich.
Angenommen, Sie nehmen ein Gen, das in beiden geteilt wird, wie CCND1. Sie können sie aneinander ausrichten und Sie werden feststellen, dass große Teile der Sequenzen gleich sind (offensichtlich mit einigen Nichtübereinstimmungen). In diesen Regionen spielen die linke und die rechte Hand zusammen (verschiedene Oktaven.
Sie werden auch Lücken in den Ausrichtungen finden, in denen Sie eine Strecke mit "nur Maus"- oder "nur Menschen"-Sequenz haben und in diesen Regionen die linke oder rechte Hand alleine spielen (Solo).
Angenommen, die beiden Ausrichtungen sehen folgendermaßen aus:
mouse: CGTGGGAGGCTCTTGAGCCTGGAAACACTATCGCAGTTTGTACGGAATGCACTTGTTCTTTACAAAAGG
human: CTTGGGCGACA---GAGC---GAGACTTTGTCTCAAAAAAGAAG--------------------AAAAG
In diesem Fall sehen Sie Abschnitte der Ausrichtungen, in denen die Maus (linke Hand) ein Solo spielt, und andere Male spielen die beiden Hände „harmonisch“.
Anas Elghafari
Anas Elghafari