DNS-Daten für GRCh38

Diese Frage unten stellte sich als völlig fehlerhaft heraus. Ich habe nichts mit DNase-Daten für GRCh38 zu tun. Ich habe es wegen des Dateianzahlunterschieds zwischen hg38 und hg37 gefragt, den ich für zu groß hielt. Für hg38 gibt es 95 Dateien *Peak.txt.gz . Für hg37 gibt es 236 *narrowPeak.gz , aber nach dem Zusammenführen der Paare PkRep1 & PkRep2 (wahrscheinlich FASTQ(SE/PE)-Wiederholungen) erhalten wir nur 123 Dateien. Schließlich scheint dieser Unterschied (123 & 95) nicht mehr groß zu sein und wir haben eine noch sauberere Situation ohne PkRep1 & PkRep2.

Eines noch einmal: Es gibt kein Problem mit DNase-Daten für die GRCh38-Assemblierung und nur meine Frage war irreführend. Ich möchte mich für die Verwirrung entschuldigen, die ich verursacht habe.


Ich interessiere mich für Transkriptionsaktivität, daher bin ich bereit, DNase-Überempfindlichkeitsstellen zu verwenden, um Regionen zu erkennen, an denen Transkriptionsfaktoren binden dürfen. In der vorherigen Genomassemblierung GRCh37 / hg19 habe ich Narrow-Peaks-Dateien aus diesen beiden Quellen (University of Washington bzw. Duke University) verwendet (Dateien mit den Suffixen .narrowPeak.gz ):

http://hgdownload.cse.ucsc.edu/goldenPath/hg19/encodeDCC/wgEncodeUwDnase/ http://hgdownload.cse.ucsc.edu/goldenPath/hg19/encodeDCC/wgEncodeOpenChromDnase/

Bei der aktuellsten Baugruppe GRCh38 sind auch einige Anmerkungen angehängt (Dateien mit abschließender Peak.txt.gz ): http://hgdownload.soe.ucsc.edu/goldenPath/hg38/database/

Und hier stellen sich vier ergänzende Fragen:

  1. Betrachten Sie nur Datensätze, die von der University of Washington stammen. Für GRCh38 / hg19 habe ich 236 Narrow-Peak-Dateien gezählt, während es für neuere GRCh38 nur 95 Dateien sind. Wie ist dieser Unterschied zu erklären? Stellen die Datensätze genau die gleiche Abdeckung dar, jedoch mit viel geringerer Granularität/Präzision (Datensätze, die für mehrere Gewebelinien vorliegen, werden in weniger Dateien zusammengeführt)?

  2. Bei GRCg37 / hg19 haben wir sowohl schmale als auch breite Spitzen, während GRCh38 nur einen Dateityp *Peak.txt.gz enthält . Bedeutet das, dass wir mit der neuesten Version nur schmale Peaks haben? Sind die breiten Spitzen woanders versteckt?

  3. Mit GRCh37/hg19 haben wir zwei getrennte Quellen von DNase-Daten: UofW und Duke. Für GRCh38 scheinen nur UofW-Datensätze verfügbar zu sein. Ist eine andere Quelle für DNase-Daten verfügbar, die möglicherweise separat gespeichert wird (Duke oder ein anderes Labor)?

  4. Nehmen wir an, Sie sind an meiner Stelle und möchten cis-Regelungsbereiche bestimmen. Welche Art von Daten kann dafür verwendet werden? Vielleicht DNase-Datensätze, aber aus anderen Quellen oder sogar völlig anderen Datentypen (NICHT DNase)?

Danke im Voraus für deine Antwort.

Keine Notwendigkeit, sich zu entschuldigen. Ihre Frage war eigentlich sehr interessant und wird den zukünftigen Forschern sehr helfen, da bin ich mir sicher! Ich würde dir raten, es auf OP zurückzusetzen

Antworten (1)

Ich bin mir nicht sicher, wie sehr es Ihre Frage beantwortet, aber schauen Sie sich die Homepage von DeltaSVM an - In seiner Arbeit haben Lee et al. habe ähnliche Datensätze verwendet (nur für GRCH37, schätze ich) und ich bin sicher, dass sie einige Ihrer Fragen beantworten werden.

Da Sie selbst besser bestimmen können, welche Datensätze Sie benötigen.