Wie erstellt man eine Sammlung anonymer Sequenzen zum Lehren und Testen? [abgeschlossen]

Ich suche eine große Sammlung (>1000) von Sequenzdateien (zB FASTA) von jedem realen Organismus oder ein Werkzeug, um eine solche Sammlung zu erstellen.

Die Sequenzdateien würden zum Unterrichten und zum Testen von Automatisierungsverfahren verwendet.

Den Schülern wurde eine eindeutige Sequenzdatei zugewiesen und sie wurden gebeten, sie anzusehen (z. B. mit gORF) und zu identifizieren (mit BLASTn).

Die Sequenzdatei müsste also nur die Sequenzdaten enthalten (keine Metadaten über Art oder Gen).

Ich bräuchte einen zugehörigen Antwortbogen.

Ich denke, Sie müssen genauer erklären, was Sie erreichen möchten. Darüber hinaus erhalten Sie möglicherweise weitere Hilfe zu biostar
Diese Frage, die ich in Biostar gestellt habe, scheint verwandt zu sein - Beispiele für DNA-Sequenzmotivsätze zum Testen des Suchalgorithmus

Antworten (3)

Es gibt ein paar Schlüsselwörter in dieser Frage - anonym und lehrend. Ja, NCBI ist eine Quelle für Sequenzdaten, aber sie ist nicht anonym (sie ist kommentiert, was bedeutet, dass ein Schüler sie auch finden und diese Anmerkung kopieren/einfügen könnte, ohne die eigentliche Analyse durchzuführen). Beachten Sie, ich gehe nicht davon aus, dass es sich bei der Anfrage um menschliche Daten handelt. Wenn nun anonyme menschliche Daten benötigt werden, sind die meisten verfügbaren Sequenzdaten anonym, aber es bleibt das Anmerkungsproblem: Wenn sie bereits kommentiert sind, was werden sie lernen?

Eine gute alternative Quelle für einige menschliche Genomdaten wäre Complete Genomics. Sie haben anonymisierte (anonymisierte) Daten für mindestens 69 Personen veröffentlicht. Die Frage stellt ungefähr 1000 Sequenzen, aber wie groß? Dies ist eine wichtige Überlegung. Auch andere Details fehlen in der Frage.

Eine andere Quelle könnten die 1000 Genomes-Daten sein, auch menschliche. Wenn Sie an Pflanzen interessiert sind, gibt es da draußen Sequenzdaten von ~98 verschiedenen Akzessionen/Sorten/Stämmen von Arabidopsis thaliana.

Hier ist der Ansatz, den ich letztendlich verwendet habe, teilweise dank all der Beiträge hier.

Das zugehörige R-Skript ist unten oder kann heruntergeladen werden von:

FETT SEQUENZ WIEDERHERSTELLUNG

Dadurch werden 999 eindeutige Sequenzdateien im Klartext erstellt, wobei jede Sequenz auf Artebene identifiziert wird und nur wenige Arten in mehr als einer Sequenz gefunden werden.

Es erstellt auch den passenden Antwortschlüssel.

Sie können an einem zufälligen Ort beginnen, damit sich die Dateien jedes Jahr/jede Gruppe ändern.

Ich habe R verwendet, um die BOLDS-Datenbank (Barcode of Life) abzufragen, eine Datei herunterzuladen und diese riesige Datei in separate Sequenzen aufzuteilen.

Hier ist das R-Skript

rm(list=ls())

complete<-"http://services.boldsystems.org/eFetch.php?record_type=full&id_type=sampleid&ids=(*)&return_type=text"
write(complete, file="your location on disk")

rm(list=ls())

sequences.id<-data.frame("file.name", "recordID", "genus_name", "species_name")
write.table(x=sequences.id, file="sequences_id.csv", append=F, sep = ",", row.names=F, col.names=F)



set.seed(10)
start<-sample(1:1000, size=1)

i<-start
k<-1

while(k < 1000){

  sequences<-read.delim(file=complete, skip=i, nrows=1, header=F)
  sequence.compare<-read.csv(file="sequences_id.csv", skip=k-1, nrows=1, header=F)

  if(! is.na(sequences$V24)){
    if(as.character(sequences$V24)!=as.character(sequence.compare$V4)){
      writeLines(text=as.character(sequences$V55), con=paste(k, ".txt", sep=""))
      sequences.id<-c(k, sequences[,c("V3","V22", "V24")])
      write.table(x=sequences.id, file="sequences_id.csv", append=T, sep = ",", row.names=F, col.names=F)
      print("kept")
      k<-k+1
    }
  }
  i<-i+1
  print(paste(k,"/", i))
}

Dies ist wahrscheinlich nicht der eleganteste Weg, aber Sie könnten zum NCBI gehen und nach Nukleotidsequenzen von einem bestimmten Organismus suchen (z. B. gibt txid9606[Organism:exp] alle Sequenzen von Homo sapiens). Dann können Sie die Dropdown-Liste Senden an verwenden, um alle Ergebnisse als kompilierte FASTA-Datei herunterzuladen.

NCBI bietet auch einige APIs an , die den Prozess sauberer machen und eine bessere Filterung ermöglichen würden.