Ich versuche, einige Daten über die Genposition im menschlichen Genom zu erhalten, und ich brauche etwas Hilfe
Was ich versucht habe
Ich habe heruntergeladenftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_18/gencode.v18.annotation.gtf.gz
Mich interessiert nur die Genposition, also habe ich nur die ersten Spalten behalten.
awk -F "." '{print $1}' /Users/remi/Downloads/gencode.v18.annotation.gtf >> HumanGenomePositions.txt
Dieser Vorgang dauert einige Minuten. Die Datei enthält Informationen zur Exonposition und zum Transkript. Ich habe die Tabelle unterteilt, um nur die Zeilen zu erhalten, die Gene betreffen
sed -i.bak '/gene/!d' HumanGenomePositions.txt
Mir bleiben 57445 Einträge. 9872 werden von ENSEMBL kommentiert und 47573 werden von HAVANA kommentiert. Beachten Sie, dass es teilweise Überschneidungen zwischen den beiden gibt. Nach Church et al. 2009 gibt es 19042 annotierte Gene im menschlichen Genom (berichtet von bionumbers ). Da mache ich offensichtlich etwas falsch!
Frage
Können Sie mir helfen, Daten über Genpositionen beim Menschen in einem handlichen Format zu erhalten (siehe unten)?
start end
15648 65487
129841 124984
...
Ich empfehle, nach transcript_type
dem Wert aus der Beschreibungsspalte zu filtern. Sie brauchen nur proteine_coding
Gene. Jetzt haben Sie zusätzliche ~10.000 unverarbeitete Pseudogene, ~5.000 Antisense-Gene, ~4.000 miRNA, ~7.000 lincRNA und mehr als dreißig andere Kategorien von unverarbeitetem pseudogenem Material.
Soweit ich weiß, ist die aktuelle Version für GRCh37 die 19. Version , nicht die 18.
Remi.b
<homework>
Tag verwendet, obwohl dies keine Hausaufgabe ist. Der Grund ist, dass ich denke, dass die Frage einführend genug ist, um in einem Einführungskurs in die Bioinformatik gestellt zu werden.mdperry
mdperry
Remi.b