Daten zur Genposition im menschlichen Genom

Ich versuche, einige Daten über die Genposition im menschlichen Genom zu erhalten, und ich brauche etwas Hilfe

Was ich versucht habe

Ich habe heruntergeladenftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_18/gencode.v18.annotation.gtf.gz

Mich interessiert nur die Genposition, also habe ich nur die ersten Spalten behalten.

awk -F "." '{print $1}' /Users/remi/Downloads/gencode.v18.annotation.gtf  >> HumanGenomePositions.txt

Dieser Vorgang dauert einige Minuten. Die Datei enthält Informationen zur Exonposition und zum Transkript. Ich habe die Tabelle unterteilt, um nur die Zeilen zu erhalten, die Gene betreffen

sed -i.bak '/gene/!d' HumanGenomePositions.txt 

Mir bleiben 57445 Einträge. 9872 werden von ENSEMBL kommentiert und 47573 werden von HAVANA kommentiert. Beachten Sie, dass es teilweise Überschneidungen zwischen den beiden gibt. Nach Church et al. 2009 gibt es 19042 annotierte Gene im menschlichen Genom (berichtet von bionumbers ). Da mache ich offensichtlich etwas falsch!

Frage

Können Sie mir helfen, Daten über Genpositionen beim Menschen in einem handlichen Format zu erhalten (siehe unten)?

start   end
15648   65487
129841  124984
...
Ich habe das <homework>Tag verwendet, obwohl dies keine Hausaufgabe ist. Der Grund ist, dass ich denke, dass die Frage einführend genug ist, um in einem Einführungskurs in die Bioinformatik gestellt zu werden.
Warum haben Sie sich für GTF und GFF3 entschieden? Ich frage nur, weil ich viel mehr Erfahrung mit GFF3 habe; außerdem sagt Ihnen Spalte 2 in GFF3 den Typ des Sequenzmerkmals, das in einer gegebenen Zeile annotiert wird, also durch Verwendung von cut -f 2 | sortieren | uniq -c können Sie eine Liste aller "bekannten" Funktionen in dieser Datei sowie eine Zählung ihrer Anzahl erhalten. Eine möglicherweise triviale Erklärung für die Diskrepanz, die Sie gefunden haben, ist, dass Church at al. nur die proteinkodierenden Gene zählen, während Ihre Regex-Suche mit tRNA-Genen, rRNA-Genen, miRNA-Genen, snoRNA-Genen und Pseudogenen übereinstimmt, nicht wahr?
Ein äußerst nützliches Werkzeug (in meinen Händen) ist die Familie der Data Warehouses. Ich habe hauptsächlich modMine und FlyMine verwendet, aber es gibt auch eine HumanMine. Wenn Sie eine Liste mit Identifikatoren für diese Gene hätten, die menschliche Proteine ​​codieren, könnten Sie diese Liste in HumanMine hochladen und dann ihr Abfragetool verwenden, um eine Tabelle der genomischen Koordinaten für diese menschlichen Gene zu erstellen.
Ich habe GTF völlig zufällig verwendet. Ich kenne keines dieser Formate und habe auch noch nie von "interMine Family of Data Warehouse" gehört. Oh, denkst du, wir könnten ungefähr 30.000 nicht-proteinkodierende Gene haben? Es scheint mir riesig zu sein, aber das wäre eine gute Erklärung.

Antworten (1)

Ich empfehle, nach transcript_typedem Wert aus der Beschreibungsspalte zu filtern. Sie brauchen nur proteine_codingGene. Jetzt haben Sie zusätzliche ~10.000 unverarbeitete Pseudogene, ~5.000 Antisense-Gene, ~4.000 miRNA, ~7.000 lincRNA und mehr als dreißig andere Kategorien von unverarbeitetem pseudogenem Material.

Soweit ich weiß, ist die aktuelle Version für GRCh37 die 19. Version , nicht die 18.

Oh, diese Kolumne habe ich übersehen. Gibt es also wirklich so viele Gene, die nicht für Proteine ​​kodieren? Ich hätte nie richtig geraten. Ich werde nur unterteilen, was ich basierend auf dieser Spalte benötige. Vielen Dank.
Ich habe die 18. Version völlig zufällig genommen. Ich fühlte mich ein wenig verloren und wählte einfach ein paar zufällige Daten aus, um damit anzufangen.
Nebenfrage: Auf ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/ sehe ich 24 Veröffentlichungen. Ist der 19. wirklich der neueste, wie Sie behaupten?
@Remi.b Ich habe vorgeschlagen, die 19. Version zu verwenden, weil ich annahm, dass Sie die 18. Version verwenden und es sich um die GRCh37-Assembly handelt. Da Sie keine besonderen Anforderungen haben, denke ich, dass es in Ordnung ist, die neueste stabile Version zu verwenden.
Gencode ist afaik die 24. Version.