Längste Transkripte ohne Isoformen

Weiß jemand, welche Gene die längsten mRNAs produzieren? Ich plane ein Projekt zu synthetischen Introns und möchte Stufferfragmente verwenden, um die Introngröße zu variieren. Natürlich dürfen sie keine Spleißstellen enthalten, daher plane ich den Kauf von cDNA-Klonen.

Es wäre unglaublich dankbar, wenn jemand mit dem Finger auf Transkripte zeigen könnte, die 12 ... 20 kbp lang sind (und idealerweise keine anderen bekannten Isoformen oder kryptischen Spleißstellen haben).

Danke schön!

In welchem ​​Organismus? Übrigens, da Sie sowieso cDNA bestellen, nehme ich an, dass die meisten nicht kryptischen Splice-Größen sowieso weg sein werden.
Säugetier, vorzugsweise Maus
Meinst du "längstes Transkript ohne Introns"? Wenn Sie ein Gen mit nur einer einzigen Isoform wollen, würde ich das neueste Maus-GTF analysieren und nach Genen mit nur einer einzigen Transkriptionslinie suchen. Sie können dort auch die Genlänge (obwohl seltsamerweise nicht die Transkriptlänge) erhalten.
Diese Frage bezieht sich hier auf die längsten cDNAs. Egal, ob sie zuvor Introns enthielten. Das Endprodukt darf keine Spleißstellen enthalten

Antworten (1)

Zu R!

  1. Laden Sie die umfassendste GTF-Datei von Gencode für Maus herunter.
  2. Gehen Sie in R wie folgt vor (ich werde Kommentare in den Code einfügen, damit Sie hoffentlich folgen können):
library(GenomicFeatures)

#Load the GTF file and make a TxDb object
txdb = makeTxDbFromGFF("gencode.vM13.annotation.gtf", format="gtf")

#Make a GRangesList, with transcripts split per gene
grl = transcriptsBy(txdb, by="gene")

# Filter the GRangesList for genes with one annotated isoform
grl2 = grl[which(elementNROWS(grl) == 1)]

# Make a new GRangesList of the exons per gene from above
grl = exonsBy(txdb, by="gene")
grl = grl[which(names(grl) %in% singleIsoformGenes)]

# Get the length of each single-isoform gene
lens = sum(width(grl))

# Get the top 10 single isoform genes by length
head(lens[order(lens, decreasing=T)], n=10)

Sie erhalten dann die folgende Ausgabe, mit Gen-IDs oben und Längen darunter:

ENSMUSG00000020255.8 ENSMUSG00000101609.1 ENSMUSG00000104211.1 
              123179                84395                74456 
ENSMUSG00000109536.1 ENSMUSG00000109125.1 ENSMUSG00000047888.9 
               30942                25241                17327 
ENSMUSG00000022262.7 ENSMUSG00000066108.7 ENSMUSG00000033826.9 
               15630                14964                14583 
ENSMUSG00000032855.5 
               14170