Quelle von DNA-Sequenzen

Ich arbeite an einem Projekt, bei dem ich DNA-Sequenzen nehme und die Codons in Musiknoten übersetze. Ich habe einige gute Ideen, wie man das macht, ich bin mir nur nicht sicher, mit welchen Sequenzen ich arbeiten soll. Meine Fallstudie und viele meiner anfänglichen Recherchen haben gezeigt, dass alles, was größer als ein Protein ist, zu viel ist, um damit zu arbeiten.

Also meine Frage. Wo finde ich Protein-DNA-Sequenzen in einem Standardformat? Ich habe mir NCBI angesehen, aber ich habe keine Ahnung, was ich mir anschaue oder ob ich das richtige Zeug herunterlade. Gibt es einen Link, zu dem ich gehen kann, der eine Liste mit einer Reihe unterschiedlicher Proteinsequenzen enthält, die ich herunterladen kann?

Huh, interessante Idee. Könnte eine gute Möglichkeit sein, einige Muster zu konkretisieren, da Menschen Muster in Musik besser hören als sie in abstrakten Symbolen sehen.
Mir ist gerade aufgefallen, dass die Frage von vor 2 Jahren ist. Sind die Ergebnisse Ihrer Arbeit irgendwo online verfügbar?

Antworten (3)

GenBank und RefSeq verfügen über eine riesige Sammlung von DNA-Sequenzen, die im Fasta-Format heruntergeladen werden können. GenBank macht es sehr einfach, nach Sequenzen zu suchen (z. B. unter Verwendung des Organismusnamens), hat aber oft redundante Daten und unterschiedliche Typen (alles von ganzen Chromosomensequenzen über mRNAs bis hin zu Gensequenzen bis hin zu ESTs). RefSeq verfügt über viel sauberere, nicht redundante Daten, kann jedoch etwas mehr Aufwand erfordern, um die gewünschten Sequenzen zu finden. Je nachdem, ob dies Auswirkungen auf Ihr Projekt hat, sollten Sie dies in Betracht ziehen. Auf der RefSeq-Seite können Sie im FTP - Menü auf Genomes klickenum zu sehen, für welche Genome RefSeq-Daten verfügbar sind. Die Fasta-Sequenzen für ein bestimmtes Genom werden in einem eigenen Verzeichnis gespeichert, das möglicherweise nach Chromosom in weitere Verzeichnisse unterteilt ist. Was Sie wollen, sind die Fasta-Dateien (die auf .fa, .fasta, .ffn oder so ähnlich enden), wobei zu beachten ist, dass sie komprimiert sein können (.fa.gz, fasta.gz usw.).

Wenn Sie bereits einen bestimmten Organismus im Sinn haben, können Sie alternativ eine Google-Suche durchführen, um zu sehen, ob das Genom für diesen Organismus sequenziert wurde. Wenn ja, gibt es fast immer eine spezielle Website, auf der Sie DNA-Sequenzen für dieses Genom herunterladen können.

Ich war auf diesen Seiten, ich weiß nur nicht, wo ich hingehen soll, um eine Liste mit Sequenzen zu bekommen. Ich möchte eine Vielzahl von Sequenzen, daher würde eine Liste oder der Stamm eines Verzeichnisses am meisten helfen. Ich suche nicht nach bestimmten Sequenzen. Ich brauche einfach viele davon.
Wenn Sie beispielsweise in GenBank nach Vitis vinifera suchen , erhalten Sie 131.000 Ergebnisse. Wenn Sie auf die Schaltfläche "Senden an" klicken, Datei und dann das Fasta-Format auswählen, können Sie eine Fasta-Datei mit den Sequenzen herunterladen. Wenn das nicht das ist, wonach Sie suchen, müssen Sie etwas mehr Details angeben, bevor wir Ihnen helfen können.
Ich weiß nicht viel über Biologie. Ich erforsche verschiedene Möglichkeiten, Daten zu codieren, um die Wahrnehmung der Daten zu unterstützen. Ich weiß also viel über Informationen, nur nicht über DNA. Ich brauche eine Reihe von Sequenzen, die ich als Tests für mein DNA-to-Music-Tool verwenden kann.
Reichen 131.000 Sequenzen aus?
Ok, das ist eine gute Antwort. Ich habe getan, was Sie gesagt haben, und habe genau das, was ich wollte, eigentlich ein bisschen besser, jetzt, wo ich sehe, dass ich nach bestimmten Organismen suchen kann.

Ein Standardformat wäre das FASTA-Format .

Wenn Sie einige Proteine ​​von Interesse haben, die Sie sich ansehen möchten, können Sie einfach „Nukleotid“ oben auf der NCBI-Seite auswählen, den Namen Ihres Proteins eingeben und dann die FASTA-Schaltfläche unter jedem Ergebnis drücken, an dem Sie interessiert sind.

Wenn Sie nur einen großen Datensatz von DNA-Sequenzen benötigen, die für Proteine ​​kodieren, können Sie beispielsweise die „nt“ -Blast-Datenbank verwenden. (Ich glaube, das sind nur Proteinsequenzen, die nicht ganz sicher sind, ich dachte, es wäre einfacher zu bekommen)

Ich habe dieses Format auch gesehen, gibt es einen Ort, an dem ich viele Sequenzen in diesem Format herunterladen kann?
gute Antwort. Ich werde die 10-GB-Datei herunterladen und mich an die Arbeit machen, haha. Danke
Da ich hier nur Kommentare hinzufügen kann: Ich stimme Daniel Standage zu, dass Genbank die geeignetere Ressource ist, aber wie stellen Sie dort sicher, dass es sich nur um proteinkodierende DNA handelt? Sie könnten Ihre Suche nach mRNA auf der rechten Seite einschränken, was einige Nicht-Protein-Ergebnisse verwerfen sollte, aber dann haben Sie mRNA-Sequenzen, die sich natürlich von der DNA-Sequenz unterscheiden, aus der sie stammen. Wenn das kein Problem ist, würde ich sagen, gehen Sie dafür.
Dieser Vorschlag hat sehr geholfen

Dies ist eher ein Kommentar, aber zu lang, um ihn in ein Kommentarfeld einzufügen, also füge ich ihn hier ein.

Das ist eine lustige Idee, die Sie da machen. Ich habe eine halbgare Idee (vorausgesetzt, Sie suchen nach Input), ob Sie sie weiter untersuchen möchten - oder nicht ... wenn ich mit dem Schreiben fertig bin, wird mir vielleicht klar, dass es zu dumm ist, aber trotzdem ... lass uns sehen.

Es könnte lustig sein, die Sequenz von zwei Organismen zu nehmen, sagen wir Maus und Mensch, und bestimmte Regionen aufeinander auszurichten – stellen Sie sich vor, das ist wie Klavierspielen, wo die „linke Hand“ die Maussequenz sein könnte und die „rechte Hand“. „ist menschlich.

Angenommen, Sie nehmen ein Gen, das in beiden geteilt wird, wie CCND1. Sie können sie aneinander ausrichten und Sie werden feststellen, dass große Teile der Sequenzen gleich sind (offensichtlich mit einigen Nichtübereinstimmungen). In diesen Regionen spielen die linke und die rechte Hand zusammen (verschiedene Oktaven.

Sie werden auch Lücken in den Ausrichtungen finden, in denen Sie eine Strecke mit "nur Maus"- oder "nur Menschen"-Sequenz haben und in diesen Regionen die linke oder rechte Hand alleine spielen (Solo).

Angenommen, die beiden Ausrichtungen sehen folgendermaßen aus:

mouse: CGTGGGAGGCTCTTGAGCCTGGAAACACTATCGCAGTTTGTACGGAATGCACTTGTTCTTTACAAAAGG
human: CTTGGGCGACA---GAGC---GAGACTTTGTCTCAAAAAAGAAG--------------------AAAAG

In diesem Fall sehen Sie Abschnitte der Ausrichtungen, in denen die Maus (linke Hand) ein Solo spielt, und andere Male spielen die beiden Hände „harmonisch“.

Das Tool, das ich mache, kann dazu ohne Modifikation verwendet werden. Coole Idee aber. Ich werde möglicherweise einen Blog dafür erstellen, sobald ich die schwierigen Teile abgeschlossen habe, und ihn nur als Referenz an diese QA senden.
Hier ist das Tool dnasongs.brandonhamric.com . Der Ausrichtungsteil wird wegen einiger Fehler beim gleichzeitigen Spielen mehrerer Teile weggelassen, aber na ja.