Ich arbeite an meinem ersten sequenzierungsbezogenen Projekt und versuche, Proteine mit einer bestimmten PFAM-ID ( PF11999 ) zu finden. Das Projekt heißt "MMETSP", ich habe die Annotationen nach dieser ID durchsucht, Signalpeptide mit SignalP identifiziert und ihre Zielorte mit einem Tool namens MultiLoc2 (ich habe nur nach extrazellulären Zielen gesucht).
Von den sehr wenigen Sequenzen, die nach all dieser Filterung übrig blieben, begann keines der DNA-Bits mit dem Basenpaar-Code "ATG", für Methionin. Wie kann das sein?
Ich habe die Shell verwendet, um zu berechnen, dass nur 1,83% aller Sequenzen mit ATG beginnen.
Irgendwelche Ideen dazu?
Wenn jemand über diese Frage stolpert, habe ich am Ende herausgefunden, was das Problem war:
Entgegen meiner Annahme, dass die DNA-Sequenzen alle in der richtigen 5'3'-Richtung waren, stellte sich heraus, dass wir den genauen ORF auf dem komplementären Strang fanden in die andere Richtung und wer weiß wo noch. Glücklicherweise enthielten die MMETSP-Daten auch ein /pep-Verzeichnis, in dem die benötigten Sequenzen in einer sauberen Version gefunden wurden. Danke fürs Lesen und viel Glück.
Devon Ryan
Birg3r
Devon Ryan
Birg3r
Devon Ryan
Birg3r