Wie konvertiert man das FASTQ-Dateiformat in das GTF-Dateiformat?

Ich habe viele FASTQ-Dateien (FASTQ ist ein Standard zum Speichern der Ausgabe von Hochdurchsatz-Sequenzierungsinstrumenten wie dem Illumina Genome Analyzer) und muss sie in das GTF- Format konvertieren (gtf - Dateiformat, das verwendet wird, um Informationen über die Genstruktur zu speichern, die wesentliches Merkmal ist die Validierbarkeit: Bei einer Sequenz und einer GTF-Datei kann man prüfen, ob das Format korrekt ist, was Probleme beim Datenaustausch zwischen Gruppen erheblich reduziert).

Ich nehme an, dass es (wenn diese Formate Standards für gängige Dateien sind) eine Software geben muss, die Informationen einfach von FASTQDateien in GTFDateien umwandelt. Hat jemand von einer solchen (möglicherweise Open-Source-) Software gehört? Ich kenne R statistical packageund SASkann Pythonim Handumdrehen lernen.

Danke für jede Hilfe.

Eine schnelle Google-Suche liefert viele Treffer, ganz zu schweigen von den Rückmeldungen von unten. Bitte bearbeiten Sie Ihre Frage und geben Sie mehr darüber an, was Sie haben, was Sie nicht haben , was Sie versuchen zu tun, mit welchen Ressourcen Sie arbeiten müssen, wie Ihre Zeitbeschränkungen sind, was Ihre ultimativen Ziele sind usw. Dort Es gibt absolut keine Garantie dafür, dass jemand hier darauf antworten kann oder dass es hier zum Thema gehört , da "zu breite" Fragen geschlossen werden.

Antworten (4)

Sie sollten sich wirklich über diese beiden Dateiformate informieren. Wie bereits erwähnt , enthalten FASTQ und GTF unterschiedliche Arten von Informationen. GTF speichert die Annotation einer Referenzsequenz. Beispielsweise enthält eine GTF für eine Genomsequenz Informationen über die Orte von Merkmalen wie Genen, Transkripten, Exons, Startcodon usw.

FASTQ speichert die Sequenz eines durch die Sequenzierung erhaltenen Reads zusammen mit den Qualitäts-Scores, die jeder Position entsprechen.

Wie von anderen erwähnt, macht es keinen Sinn, nach einer Konvertierung dieser Dateiformate zu fragen.


Ich schätze, wonach Sie fragen, ist " Wie erhält man neuartige Anmerkungen mit einer vorhandenen FASTQ-Datei? "

Dies hängt auch davon ab, was Sie annotieren möchten .

Die sechste Spalte in einer GTF-Datei bezieht sich auf eine Punktzahl ; Sie können verschiedenen Merkmalen Ausdruckswerte zuweisen. Sie können den Ausdruck anhand der Lesezahlen berechnen. Wenn es sich um RNAseq-Reads handelt, kann die Expression mit Paketen wie tophat-cufflinks , RNAstar oder einigen anderen gemessen werden.

Wenn Sie ChIP-Seq durchführen, können Sie eine GTF mit einer neuen Funktion namens TFBS (Transcription Factor Binding Site) generieren und die Positionen kommentieren. Ein beliebtes Paket für die ChIP-Seq-Analyse ist MACS , das Ihre Messwerte aufnimmt und die TFBS in Form einer BED-Datei ausgibt , in der auch Koordinaten gespeichert sind. Sie können BED in GTF umwandeln . Sie können auch Bewertungen basierend auf den Lesezahlen bei verschiedenen TFBS zuweisen.

Wenn Sie kein Referenzgenom haben oder die Annotation des Referenzgenoms unvollständig ist, sollten Sie zuerst Ihre Reads zusammenstellen . Wenn Sie ein Referenzgenom haben, können Sie sich für eine referenzgeführte Zusammenstellung der Transkripte entscheiden, um neue Transkripte oder Spleißvarianten zu erhalten. Manschettenknöpfe tun dies.

Wenn Sie kein Referenzgenom haben, sollten Sie Ihr Transkriptom de-novo zusammenbauen und das Transkriptom mit Startcodons oder anderen Merkmalen verarbeiteter Transkripte versehen. Velvet und Trinity sind beliebte Pakete, die De-novo-Assemblierungen durchführen.

Deine Frage ist nicht ganz klar. Was sollte der Inhalt Ihrer GTF-Datei sein? Typischerweise enthalten GTF-Dateien Informationen darüber, wo sich Exons in einem Satz von DNA-Sequenzen befinden. Die Bestimmung des Ortes und der Exon/Intron-Struktur von Genen ist keine einfache technische Aufgabe (dh eine "Umwandlung", wie in Ihrer Frage angegeben), sondern ein großes Gebiet aktiver Forschung. Das Annotieren von Genen beinhaltet die Verwendung statistischer Modellierung ( ab initioGenprädiktoren), Abgleich experimenteller Beweise (ESTs, cDNAs und möglicherweise Illumina RNA-Seq-Reads) und in einigen Fällen manuelle Verfeinerung von rechnerischen Vorhersagen. Wenn Sie mit einem Modellorganismus wie Mensch, Maus oder Fruchtfliege arbeiten, stehen zuverlässige GTF-Dateien zum Download aus öffentlichen Datenbanken bereit. Wenn Sie nicht mit einem Modellorganismus arbeiten, haben Sie viele Arbeitsaufwand, um ein Genom von Grund auf neu zu kommentieren.

Oder möchten Sie vielleicht neue alternativ gespleißte Isoformen für bekannte Gene annotieren?

Ohne weitere Informationen wird es für uns schwierig sein, Ihnen dabei zu helfen, zu verstehen, wie Sie Ihre Rohdaten (Illumina liest im FASTQ-Format) in eine GTF-Datei verarbeiten, die eine biologische Frage behandelt, an der Sie interessiert sind.

Ein fastq enthält Sequenzen. Ein gtf enthält Koordinaten, wo Merkmale wie Exons in eine Referenzsequenz fallen. Sie können sie nicht ineinander umwandeln, das macht keinen Sinn.

Es ist also unmöglich, eine GTF-Datei zu erstellen, wenn ich nur Informationen aus der Fastq-Datei habe?
Wenn dies ein neuartiger Organismus ist und Sie einen sehr schönen großen Satz von RNAseq-Reads haben, könnten Sie ihn theoretisch an Ihrer Referenz ausrichten und daraus eine GTF erstellen. Aber im Allgemeinen, nein, Sie möchten eine geeignete gtf für Ihren Organismus herunterladen, nicht Ihre eigene erstellen.
Nein, ich möchte meine eigene Datei erstellen. Ich habe einen sehr schönen großen Satz von RNAseq-Reads und die GTF-Datei existiert nicht. Das ist die Frage :)
Du kannst nicht einfach konvertieren. Sie müssen sich für den Anfang an Ihrer Referenz orientieren, wie Daniel sagt, eine GTF von Grund auf neu zu erstellen, ist ein großes Projekt, es richtig zu machen, wird eine Menge Arbeit sein. Aber wenn es das ist, was Sie tun müssen, dann müssen Sie das tun.

Die Tuxedo Suite (Tophat, Bowtie und Manschettenknöpfe), die zur Verarbeitung von RNA_seq-Daten verwendet wird, sollte für Sie funktionieren, vorausgesetzt, dies ist der Ursprung Ihrer .fastq-Dateien.

https://ccb.jhu.edu/software/tophat/index.shtml