Wie könnte ich feststellen, ob es sich bei den angegebenen RNA-seq-Daten um Paired-End- oder Single-End-Daten handelt?

Ich brauche einen RNA-Seq-Datensatz und habe deshalb die folgende Seite NCBI-geo C. Elegans besucht

Im ergänzenden Dateiteil habe ich auf die SRP/SRP051/SRP051702 ftp geklickt und die sra -Datei heruntergeladen . Dann muss ich es in das Fastq-Dateiformat konvertieren. Zu diesem Zweck habe ich gehört, dass es ein sra-Toolkit gibt und darin fastq-dump ausführbar ist. Um es jedoch verwenden zu können, muss ich zunächst herausfinden, ob meine sra-Datei Paired-End- oder Single-End-Lesedaten enthält. Meine Frage lautet also: Wie kann ich die Art der Lesevorgänge im Datensatz (im ersten Link) ermitteln?

Ohne Informationen habe ich das Flag --split_files von fastq-dump ausführbar verwendet und es wurden zwei 14 -GB-Dateien (beide sind genau 14.346.367.840 Bytes) generiert , und ihre Namen sind SRR1741330_1.fastq und SRR1741330_2.fastq Bedeutet dies, dass mein Datensatz ist gepaartes Ende?

Als eine andere Frage (anders, aber verwandt mit Teil 1). In der Datei SRR1741330_1.fastq enthalten Sequenzen in einigen Zeilen verschiedene Zeichen wie CCCFFFFFGFHHHGJJJJI#1?FEIGGI ... Bevor ich mir diese Dateien ansah, dachte ich, dass diese Sequenzzeilen nur die Buchstaben A, G, T und enthalten sollten C . Was sind diese F, H, J, I, #,? etc..

Meine Fragen mögen trivial und bedeutungslos sein, aber da ich eine völlig neue Person auf diesem Gebiet bin, konnte ich sie nicht verstehen.

BEARBEITEN

Neue Frage

Ich frage mich noch etwas, da es mit dem vorherigen Teil meiner Frage zusammenhängt, die ich hier gestellt habe, anstatt eine neue Frage zu erstellen. Nachdem ich eine fastq-Datei mit der ausführbaren dump_fastq-Datei generiert habe, haben alle Sequenzen eine Länge von 50. Liegt es an den Parametern der ausführbaren dump_fastq-Datei oder an ihrer Beziehung zur ursprünglichen sra-Datei? Mit anderen Worten, könnte ich diese Länge erhöhen?

Antworten (1)

Um herauszufinden, ob ein Datensatz Paired-End oder Single-End war, gehen Sie zu SRA, klicken Sie auf einen Lauf und sehen Sie unter „Bibliothek“ nach. Paired-End-Datensätze haben normalerweise "Layout: paired". Beachten Sie, dass die Leute dies nicht immer richtig markieren, was Kopfschmerzen ohne Ende verursacht.

In Bezug auf Zeilen wie "CCCFFFFFGFHHHGJJJJI#1?FEIGGI" ist dies die Qualitätsbewertungszeile. Weitere Einzelheiten finden Sie im fastq-Artikel in Wikipedia.

Bearbeiten: In Bezug auf den aktualisierten Teil Ihrer Frage können Sie diese Länge nicht verlängern. Die von Illumina-Maschinen produzierten Sequenzen haben eine feste Länge, und diese Länge (oder welche Länge auch immer übermittelt wurde) ist das, was Sie erhalten. Als allgemeine Regel erhalten Sie die aktualisierte Sequenz (es sei denn, Sie vergessen die Option --split3 (oder wie auch immer sie heißt)).

@Devon_Ryan danke für deine Hilfe, gehe auf jeden Fall zu SRA, ich denke, du beziehst dich auf die sra-Datei, die ich von dem oben angegebenen Link heruntergeladen habe, oder?
Okey, jetzt habe ich es gefunden, es ist im Browser
Genau, ich meine die Webseite für einen Lauf auf der SRA-Website. Dieselben Informationen sind in der Regel auch in GEO verfügbar (klicken Sie auf eines der Beispiele und lesen Sie den Abschnitt „Datenverarbeitung“), aber in der Regel geht es etwas schneller, einfach zu SRA zu gehen.
@Devon_Ryan Nochmals vielen Dank, könnten Sie sich meine Frage noch einmal ansehen, ich habe sie aktualisiert
Ich habe meine Antwort aktualisiert. Die kurze Antwort ist, dass Sie das erhalten, was hochgeladen wurde, was normalerweise alles ist, was sequenziert wurde.
@Devon_Ryan danke für das letzte Mal :) Also, wie ich aus Ihrer aktualisierten Antwort verstanden habe, wurden rna-seq-Daten mit der Länge von 50 gelesenen Basenpaaren geliefert.
@stackunderflow Ja, genau.