Wo finde ich eine vollständige Liste mit Beispielen für Datentypen in der Biologie? [geschlossen]

Ich habe keinen Hintergrund in Biologie und möchte eine Sammlung der Datentypen in der Biologie aufbauen. Ich beginne zu suchen und zu lesen und habe festgestellt, dass es 7 Datentypen gibt:

1-Sequenzen: DNA, RNA, Protein 2-Strukturen biologischer Moleküle 3-Genexpressionsprofile 4-Biochemische Signalwege 5-Chromosomale Kartierung 6-Phylogenetische Datenquelle 7-Single Nucleotide Polymorphisms (SNPs)

und ich suche nach einem Schema, das diese Typen definiert, und fand EDAM-Ontologie http://edamontology.org/pag , aber es hilft mir nicht. Haben Sie eine Idee, wo ich eine vollständige Liste mit Beispielen der genannten Datentypen finden kann? oder zumindest für einen dieser Datentypen? Jeder Hinweis hilft mir.

Danke

Wie definieren Sie "Datentypen"?
Aus Ihren Beispielen geht hervor, dass Sie an Daten in der Molekularbiologie interessiert sind , nicht an der Biologie als Ganzes. Sie müssen genauer sein, und "Datentypen in der Biologie" ist viel zu weit gefasst.
Bitte bearbeiten Sie Ihre Frage und klären Sie, was Sie meinen. Ein "Datentyp" in der Biologie kann alles sein, von einer ASCII-Textdatei über eine Blut- oder Gewebeprobe bis hin zu einem Käfer.

Antworten (1)

Ich bin auch ein wenig verwirrt darüber, was genau Sie mit "Datentyp" meinen. Soweit ich weiß, ist "Datentyp" in der Programmierung etwas, das Sie verwenden, um 0s und 1s zu blockieren, z. B. String, Int und Array ist die Art und Weise, wie Sie auf Ihre eigenen Daten verweisen würden, und etwas, das der Sprachinterpreter / Compiler verstehen und den richtigen Speicher dafür zuweisen kann . Während die Art von Daten, die Sie in der Biologie (Bioinformatik) erhalten können, denke ich, was Sie fragen. Der Datentyp, den Sie erhalten, ist eine flache Textdatei, dh ASCII oder binär, und es gibt nur wenige verschiedene Binärformate in der Bioinformatik.

In der Genomik, bei der es sich um DNA/RNA-Daten handelt, haben Sie es hauptsächlich mit ASCII-Dateien zu tun. Das sind die mir bekannten Dateien:

  • FASTQHalten Sie rohe - sequenzierte Daten. Die beiden wichtigsten Arten der Sequenzierung, die Sie durchführen können, sind die DNA-Sequenzierung (DNA-seq) und die RNA-Sequenzierung (RNA-seq). Normalerweise sind FASTQDateien immer gziped und die Dateierweiterung ist fq.gzoder fastq.gzich habe dieses Tutorial geschrieben, um es zu erklärenFASTQ
  • FASTAkann verschiedene Arten von Sequenzdaten enthalten, die sich von der Rohsequenz unterscheiden, die in FASTQ. Sie können tatsächlich FASTQin konvertieren FASTA, aber Sie würden Qualitätsinformationen verlieren. Die zwei großen Klassen von Sequenzen, die Sie in FASTAeiner Datei haben können, sind Nukleotidsequenzen, dh DNA/RNA-Sequenzen, oder Aminosäuresequenzen, dh Protein-/Peptidsequenzen. FASTAist auch fast immer gziped, die Dateiendung variiert ein wenig, am häufigsten sind einmal fa.gzoder fasta.gz, aber Sie werden sehen, fna.gzdass oder fnaoder versucht, mit Nukleotiden oder Aminosäuren faaanzuzeigen . Wird normalerweise für Referenzdateien verwendet, z. B. Referenzgenom. Hier ist ein Link zum Ensembl-Repository für MausgenomFASTAFASTA
  • GFFund GTFDateien Dies sind Annotationsdateien, die zusammen mit Referenzgenomdateien verwendet werden FASTA. Hier ist noch eines meiner Tutorials
  • SAMund BAMokay, hier ist ein Beispiel für binäre Datentypen. S equence Alignment Map , Dateiendung .samje nach Organismus, kann sehr groß werden . Für Maus-RNAseq-Daten kann die SAM-Datei beispielsweise zwischen 1 Gb und 40 Gb groß sein, es ist sinnvoll, sie zu komprimieren. BAMist binär SAM. Sie benötigen Samtools , um mit BAMDateien zu arbeiten. Hier ist ein reiner Python-BAM-Parser, wenn Sie interessiert sind.

Dies sollte die ersten beiden Ihrer Punkte abdecken. Obwohl die Proteomik nur wenige weitere Arten von Daten hat, wiederum hauptsächlich Text. Massenspektroskopie ist das Werkzeug, das Proteomik-Leute verwenden, um ihre "Rohdaten" zu erhalten, und es gibt einige finge Dateiformate, die mir nicht bekannt sind, und es wird sicher ein paar Downstream-Dateiformate geben. Bei der Genexpression handelt es sich hauptsächlich um tabellarische Daten, CSV- oder TSV-Dateien, wiederum flache Textdateien. Ein anderes Format, das ich erwähnen sollte, das Ihren Punkt 7 abdeckt, ist VCFdas variant calling format hier ist die Spezifikation für das flache Textformat.

Eine Sache, die ich sagen sollte; Es ist zumindest in der Vergangenheit etwas üblich und bevorzugt, biologische Dateien mit Unix-Tools wie , analysieren zu können grep, awkund cutdaher sind die meisten Dateien tabulatorgetrennte Textdateien. Ich denke, jetzt kommen Bioinformatiker vorbei und verwenden strukturiertere und komprimierte Datenformate.

Dies ist keineswegs eine vollständige Liste der Dateiformate, aber ich denke, dies sollte Ihnen genug zum Googlen geben.

Ein letzter Link zum Kegg-Weg , der Ihre biochemischen Wege sind, sie könnten dort die Art der Daten erklären, die sie verwenden