Gene, die in der alten Affymetrix-Plattform vorhanden sind, aber nicht in der neueren

Ich verwende zwei Genexpressionsdatensätze von einer Affy U95Av2-Plattform und einer Affy U133 Plus 2.0-Plattform. Wenn ich die Affy-Sondennamen HUGO-Gennamen zuordne, gibt es Tausende von Genen, die im neueren Affy U133 Plus 2.0-Datensatz existieren, während sie nicht im alten Affy U95Av2-Datensatz enthalten sind, was etwas zu erwarten ist. Aber es gibt auch 97 Gene, die in der alten Affy U95Av2-Plattform existieren, nicht aber in der Affy U133 Plus 2.0-Plattform. Ich würde das nicht erwarten, da Affy U133 Plus 2.0 eine viel neuere Plattform ist und ich erwarten würde, dass sie alle Gene enthält, die von Affy U95Av2 gemessen wurden. Was bedeutet das? Muss ich verstehen, dass diese 97 Genmessungen in der Affy U95Av2-Plattform nicht zuverlässig waren und sie deshalb in Affy U133 Plus 2.0 nicht vorhanden sind? Hier sind diese 97 Gene:

"ACSL4" "ACSM2A" "AP3S1" "AQP7" "ARPC3" "ATF4" "ATP5H" "BAK1" "BAK1P1" "CBX1" "CCL15" "CELP" "CFHR3" "CHEK2" "CLCNKA" "COL8A1" "CS " "CXorf40B" "CYP2D6" "DDI2" "EIF3F" "EIF3IP1" "EIF5AL1" "FCGR2A" "FCGR3A" "GBX1" "GPX1" "HAVCR1" "HBZ" "HIST1H2AH" "HIST1H2AI" "HIST1H2BC" "HIST1H2BJ" " HIST1H4I" "HOXA9" "HSPB1" "IFNA14" "IGF2" "IL9R" "ITGA1" "KAT7" "KRT33A" "KRTAP26-1" "LDHA" "MAGEA12" "MAP2K4P1"„MIA“ „MKRN3“ „MROH7“ „MSX2P1“ „MT1A“ „MT1B“ „NDUFV2“ „OPHN1“ „OR7E24“ „PARP4“ „PCDHA12“ „PCDHA13“ „PCDHGA12“ „PCDHGB4“ „PINK1-AS“ „PMS2P3“ „PSMC6“ „PSME2“ „RAB13“ „RCN1“ „RNF216P1“ „RNF5“ „RPL10A“ „RPL18“ „RPL27“ „RPL35“ „RPL37“ „RPLP1“ „RPS15A“ „RPS26“ „RPS29“ „RPS5“ „RPS9 " "RSC1A1" "S100A7" "SAA1" "SAA4" "SNX29" "SPRR2D" "TOMM40" "UBC" "UBE2E3" "UBE2S" "UGT2B7" "UQCRFS1" "UQCRH" "VDAC2" "VENTXP7" "VOPP1" "XCL2" "ZNF799"

Welche Annotationsquelle verwenden Sie, um Affymetrix-Identifikatoren Gennamen, NetAffx oder , zuzuordnen? Wenn die Anmerkungsdateien aus unterschiedlichen Quellen stammen und/oder zu unterschiedlichen Zeiten erstellt wurden, können sich die Gensymbole zwischenzeitlich geändert haben und daher nicht übereinstimmen. Aber in Ihrer Liste sehe ich deutlich etablierte Gensymbole, die sich seit langem nicht geändert haben, also sieht etwas komisch aus ...
Ich verwende biomaRt (die gleiche Ensemble-Version), um beide zu kartieren. Hier ist mein Code:ensemble = useMart(host='dec2014.archive.ensembl.org', biomart='ENSEMBL_MART_ENSEMBL'); hsp = useDataset(mart=ensemble, dataset='hsapiens_gene_ensembl'); ids = getBM(filters='entrezgene', attributes=c('entrezgene','hgnc_symbol'), values=entrezgeneids, mart=hsp);
Nun, ich weiß nicht, woher Biomart wiederum seine Informationen bezieht. Ich würde empfehlen, dass Sie die tatsächliche Quelle der Anmerkungen ausfindig machen oder Identifikatoren über eine vertrauenswürdige Quelle wie Affys eigene Anmerkungen zuordnen. Ich habe gerade eine kurze Abfrage auf NetAffx nach ACSL4 (an erster Stelle in Ihrer Liste) durchgeführt und es gibt definitiv Sonden, die auf dieses Gen auf dem U133 abzielen. Es ist unmöglich zu sagen, warum sich die Ergebnisse unterscheiden, ohne genau zu wissen, wie die Anmerkungen gemacht wurden.

Antworten (2)

Ich habe früher bei Affymetrix gearbeitet, als die meisten dieser Arrays entworfen wurden. Ich war nicht im Designteam selbst, aber ich kann vielleicht ein bisschen mehr darüber sprechen.

RNA-Array-Designs wurden entwickelt, um alles abzudecken, was möglicherweise ein echtes Transkript in der Mischung aus EST-Sammlungen, cDNA, In-silico- Generkennungen und verschiedenen Einträgen in öffentlichen Datenbanken sein könnte. Es gab viele verschiedene Leute, die versuchten, Gene so schnell wie möglich zu finden, und ein großer Teil davon war natürlich kein echtes Gen. Ich bin sicher, dass die Millionen von Transkripten, die wir aufgenommen haben, auch ein angemessenes Maß an Kontamination enthielten.

Das Team würde eine ganze Reihe von Fehlern in der Sequenzdatenbank finden. Übrigens gibt es bei den meisten Bioinformatik-Datenbanken keine Möglichkeit, dies sinnvoll einzureichen. Nur eine Notiz:)

Wenn ein neues Design herauskam, führte das Team Audits durch, um zu sehen, ob irgendwelche der Transkripte mit den Beweisen in Ungnade gefallen waren, und einige dieser „Gene“ würden aus dem Inhalt entfernt.

Dies ist nützlich, da die DNA-Hybridisierungstechnologie für den Dollar einen sehr hohen Durchsatz bietet, aber ein Hintergrundrauschen aufweist und sogar ein Sondensatz ohne Entsprechung in der RNA-Probe Zahlen ergibt, die nicht Null sind.

RNAseq hat ähnliche Probleme mit Assemblierungen und Sensitivität durch Limits von Reads auf der Probe BTW. Eine perfekte Lösung gibt es noch nicht.

Übrigens werden Gene manchmal umbenannt. Ich bin nicht auf Ihre Methoden eingegangen, um zu sehen, ob dies der Fall ist, aber etwas, das Sie im Auge behalten sollten.

Meine Erfahrung ist mit Affymetrix-Sonden für Drosophila, nicht H. sapiens, und nur mit einer Version. Trotzdem werde ich die Situation beschreiben, auf die ich gestoßen bin, falls sie für Ihre relevant ist. Entschuldigung, wenn es ein Ablenkungsmanöver ist.

Was ich mit dem Affymetrix-Datenblatt gemacht habe, war, es zu verwenden, um meine eigene relationale SQL-Datenbank zu erstellen, die ProbesetIDs und GenIDs (sowie natürlich die experimentellen Daten) enthält. Ich konnte dann einige „Haushalts“-Abfragen an die Datenbank stellen und war überrascht (vielleicht hätte ich es nicht sein sollen), als ich Folgendes fand:

  • Einige Gene wurden von mehr als einem Sondensatz aufgenommen. Keine große Sorge. Es musste nur das Sondenset ausgewählt werden, das das höchste Signal lieferte, es sei denn, es fiel in die zweite Kategorie.
  • Einige Probesets nahmen mehr als ein Gen auf. Dies war ein Problem und bedeutete, dass ich die Probesets als mehrdeutig oder eindeutig klassifizieren musste. Ein noch größeres Problem war jedoch, dass es für einige Gene keine eindeutigen Sondensätze gab.

Offensichtlich dachte Affymetrix beim Entwerfen der Probesets, dass sie unzweideutige Gen-spezifische produzierten. Wenn sie die Sondensätze aktualisierten, um neue oder korrigierte Genbezeichnungen aufzunehmen, könnte man sich vorstellen, dass sie versuchen würden, mit diesem Problem fertig zu werden (vorausgesetzt, es existierte auch in den menschlichen Gensätzen). Es scheint schwer zu glauben, aber könnten die von Ihnen erwähnten Gene der Herstellung eindeutiger Sondensätze widerstehen?

Danke für die Antwort. Ich denke, was Sie erklärt haben, ist durchaus möglich, und ich denke, es gibt auch zwei Gründe: 1) (Dank an mastal11 auf Biostars) Es gibt viele Affy-Sondensätze, die nicht so zuverlässig sind, weil sie auf ESTs basieren. Außerdem würden die älteren Arrays auf älteren Versionen der menschlichen Genomsequenz basieren, und möglicherweise kartieren einige der Sondensätze auf den älteren Arrays nicht oder nicht eindeutig auf den neueren Versionen der menschlichen Genomsequenz. Gelegentlich basierten Sondensets auch auf GenBank-Sequenzen, die später aus der GenBank zurückgezogen wurden. (Fortsetzung im nächsten Kommentar)
2) Einige dieser 97 Gene haben tatsächlich Kartierungssonden in der neueren Affy-Plattform, aber die Annotationsquelle, die ich verwende, um die Affy-Sondensätze auf HUGO-Gensymbole abzubilden, biomaRt, hat die Identifikatoren dieser Sonden also nicht in ihrer Datenbank kann sie nicht den Gensymbolen zuordnen. Es gibt verschiedene Quellen für Anmerkungen, und je nachdem, welche Sie verwenden, erhalten Sie möglicherweise eine etwas andere Zuordnung.