Ich verwende zwei Genexpressionsdatensätze von einer Affy U95Av2-Plattform und einer Affy U133 Plus 2.0-Plattform. Wenn ich die Affy-Sondennamen HUGO-Gennamen zuordne, gibt es Tausende von Genen, die im neueren Affy U133 Plus 2.0-Datensatz existieren, während sie nicht im alten Affy U95Av2-Datensatz enthalten sind, was etwas zu erwarten ist. Aber es gibt auch 97 Gene, die in der alten Affy U95Av2-Plattform existieren, nicht aber in der Affy U133 Plus 2.0-Plattform. Ich würde das nicht erwarten, da Affy U133 Plus 2.0 eine viel neuere Plattform ist und ich erwarten würde, dass sie alle Gene enthält, die von Affy U95Av2 gemessen wurden. Was bedeutet das? Muss ich verstehen, dass diese 97 Genmessungen in der Affy U95Av2-Plattform nicht zuverlässig waren und sie deshalb in Affy U133 Plus 2.0 nicht vorhanden sind? Hier sind diese 97 Gene:
"ACSL4" "ACSM2A" "AP3S1" "AQP7" "ARPC3" "ATF4" "ATP5H" "BAK1" "BAK1P1" "CBX1" "CCL15" "CELP" "CFHR3" "CHEK2" "CLCNKA" "COL8A1" "CS " "CXorf40B" "CYP2D6" "DDI2" "EIF3F" "EIF3IP1" "EIF5AL1" "FCGR2A" "FCGR3A" "GBX1" "GPX1" "HAVCR1" "HBZ" "HIST1H2AH" "HIST1H2AI" "HIST1H2BC" "HIST1H2BJ" " HIST1H4I" "HOXA9" "HSPB1" "IFNA14" "IGF2" "IL9R" "ITGA1" "KAT7" "KRT33A" "KRTAP26-1" "LDHA" "MAGEA12" "MAP2K4P1"„MIA“ „MKRN3“ „MROH7“ „MSX2P1“ „MT1A“ „MT1B“ „NDUFV2“ „OPHN1“ „OR7E24“ „PARP4“ „PCDHA12“ „PCDHA13“ „PCDHGA12“ „PCDHGB4“ „PINK1-AS“ „PMS2P3“ „PSMC6“ „PSME2“ „RAB13“ „RCN1“ „RNF216P1“ „RNF5“ „RPL10A“ „RPL18“ „RPL27“ „RPL35“ „RPL37“ „RPLP1“ „RPS15A“ „RPS26“ „RPS29“ „RPS5“ „RPS9 " "RSC1A1" "S100A7" "SAA1" "SAA4" "SNX29" "SPRR2D" "TOMM40" "UBC" "UBE2E3" "UBE2S" "UGT2B7" "UQCRFS1" "UQCRH" "VDAC2" "VENTXP7" "VOPP1" "XCL2" "ZNF799"
Ich habe früher bei Affymetrix gearbeitet, als die meisten dieser Arrays entworfen wurden. Ich war nicht im Designteam selbst, aber ich kann vielleicht ein bisschen mehr darüber sprechen.
RNA-Array-Designs wurden entwickelt, um alles abzudecken, was möglicherweise ein echtes Transkript in der Mischung aus EST-Sammlungen, cDNA, In-silico- Generkennungen und verschiedenen Einträgen in öffentlichen Datenbanken sein könnte. Es gab viele verschiedene Leute, die versuchten, Gene so schnell wie möglich zu finden, und ein großer Teil davon war natürlich kein echtes Gen. Ich bin sicher, dass die Millionen von Transkripten, die wir aufgenommen haben, auch ein angemessenes Maß an Kontamination enthielten.
Das Team würde eine ganze Reihe von Fehlern in der Sequenzdatenbank finden. Übrigens gibt es bei den meisten Bioinformatik-Datenbanken keine Möglichkeit, dies sinnvoll einzureichen. Nur eine Notiz:)
Wenn ein neues Design herauskam, führte das Team Audits durch, um zu sehen, ob irgendwelche der Transkripte mit den Beweisen in Ungnade gefallen waren, und einige dieser „Gene“ würden aus dem Inhalt entfernt.
Dies ist nützlich, da die DNA-Hybridisierungstechnologie für den Dollar einen sehr hohen Durchsatz bietet, aber ein Hintergrundrauschen aufweist und sogar ein Sondensatz ohne Entsprechung in der RNA-Probe Zahlen ergibt, die nicht Null sind.
RNAseq hat ähnliche Probleme mit Assemblierungen und Sensitivität durch Limits von Reads auf der Probe BTW. Eine perfekte Lösung gibt es noch nicht.
Übrigens werden Gene manchmal umbenannt. Ich bin nicht auf Ihre Methoden eingegangen, um zu sehen, ob dies der Fall ist, aber etwas, das Sie im Auge behalten sollten.
Meine Erfahrung ist mit Affymetrix-Sonden für Drosophila, nicht H. sapiens, und nur mit einer Version. Trotzdem werde ich die Situation beschreiben, auf die ich gestoßen bin, falls sie für Ihre relevant ist. Entschuldigung, wenn es ein Ablenkungsmanöver ist.
Was ich mit dem Affymetrix-Datenblatt gemacht habe, war, es zu verwenden, um meine eigene relationale SQL-Datenbank zu erstellen, die ProbesetIDs und GenIDs (sowie natürlich die experimentellen Daten) enthält. Ich konnte dann einige „Haushalts“-Abfragen an die Datenbank stellen und war überrascht (vielleicht hätte ich es nicht sein sollen), als ich Folgendes fand:
Offensichtlich dachte Affymetrix beim Entwerfen der Probesets, dass sie unzweideutige Gen-spezifische produzierten. Wenn sie die Sondensätze aktualisierten, um neue oder korrigierte Genbezeichnungen aufzunehmen, könnte man sich vorstellen, dass sie versuchen würden, mit diesem Problem fertig zu werden (vorausgesetzt, es existierte auch in den menschlichen Gensätzen). Es scheint schwer zu glauben, aber könnten die von Ihnen erwähnten Gene der Herstellung eindeutiger Sondensätze widerstehen?
Roland
Benutzer5054
ensemble = useMart(host='dec2014.archive.ensembl.org', biomart='ENSEMBL_MART_ENSEMBL'); hsp = useDataset(mart=ensemble, dataset='hsapiens_gene_ensembl'); ids = getBM(filters='entrezgene', attributes=c('entrezgene','hgnc_symbol'), values=entrezgeneids, mart=hsp);
Roland