Microarray-Daten und Analysetools

Microarray hat verschiedene Verwendungen, und um die Daten zu analysieren, wird eine Hauptfunktionsklassifikation verwendet. Es gibt viele Methoden, um die Daten zu klassifizieren, aber was sind die besten und am häufigsten verwendeten Methoden? Gibt es bekannte, webbasierte Tools für die Microarray-Analyse? Wo finde ich Datensätze von Genexpressionsprofilen, wo kann ich die Matrix des Datensatzes finden und verstehen ?

Probieren Sie das Bioleiterpaket aus.
Sebida und DGRP verfügen über Daten
Wenn ich es mir recht überlege, müssen die meisten oder alle Genexpressionsdaten online hinterlegt werden – schauen Sie sich mal den Genexpressions-Omnibus an. Und ich empfehle Bio Dirigent (in R)

Antworten (1)

Dies ist eine ziemlich weit gefasste Frage, und ein oder zwei Bücher werden eine vollständigere Antwort geben. Ich nehme an, Sie interessieren sich für Expressions-Microarrays. Genotypisierungs-Microarrays sind heutzutage ebenfalls sehr beliebt und unterscheiden sich jedoch erheblich.

Wo kann ich die Matrix des Datensatzes verstehen? Dies ist als Frage etwas unklar, aber ich beginne mit einer numerischen Beschreibung. Microarray-Daten sind auf ein eindimensionales Array von Intensitäten reduzierbar. Als Vektor von Zahlen, die jeweils die Menge einer bestimmten RNA-Spezies in einer Probe darstellen, hat es viele Interpretationen. Das meiste, was hier gesagt wird, gilt auch für RNASeq-Daten.

Diese Zahlen sind sequenzabhängig – das heißt, sie sollten nicht als absolute Anzahl einer bestimmten mRNA in der Probe interpretiert werden, sodass ein Vergleich zweier Einträge im Vektor (z. B. „Gen A hat 10 % mehr RNA als Gen B“) wahrscheinlich ausreicht nicht nützlich sein.

Aus diesem Grund werden Microarray-Experimente typischerweise als Differenzexperimente durchgeführt, bei denen zwei oder mehr Bedingungen verglichen werden, wodurch eine Zahlenmatrix entsteht, in der N Zeilen N Experimente darstellen und die M Spalten jeweils einen Sondensatz / ein Gen darstellen. Die Transponierung dieser Matrix ist ebenfalls üblich.

**Methoden zur Klassifizierung von Microarray-Ergebnissen. ** Unter Bezugnahme auf die Datenmatrix gibt es viele Möglichkeiten, Daten in Matrixform zu interpretieren, und die meisten davon wurden glaubwürdig mit Microarray-Daten erprobt.

Am gebräuchlichsten ist es, eine Reihe von Sondensätzen zu nehmen, deren biologische Wirkung miteinander verbunden ist (z. B. alle in einem Stoffwechselweg), und sie als Wärmekarte anzuzeigen, wo die Spalten durch einen entfernungsbasierten Algorithmus gruppiert wurden, um einen Baum zu erzeugen, wo Nachbarn die haben größte numerische Ähnlichkeit.

Heatmap

Für rein numerische Methoden wird häufig die Hauptkomponentenanalyse verwendet (trotz der Tatsache, dass dies keine großartige Methode ist ), aber es wurden selbstorganisierende Karten, neuronale Netze und so ziemlich jeder Algorithmus für maschinelles Lernen verwendet.

Die bei weitem gebräuchlichste Methode ist jedoch die Analyse von Varianten ( ANOVA ), bei der die Sondensätze / Gene nach ihrer größten bis kleinsten Varianz bewertet wurden. Der häufigste Fall hierfür ist ein Unterschiedsexperiment mit zwei Bedingungen, bei dem die größten Unterschiede als Ergebnisse genommen werden. Dies ist kein großartiges Experiment, aber die Daten sind nicht super billig zu produzieren.

**Microarray-Datenrepositorys ** Gene Expression Omnibus (GEO) ist ein hoch angesehenes Repositorium für Microarray-Daten mit über einer Million Datensätzen. Sie haben auch einige Werkzeuge, siehe unten.

EMBL ArrayExpress behauptet, etwas mehr Daten zu haben als GEO (1,2 Mio. Assays).

Es gibt viele, viele spezialisierte Microarray-Websites, die sich meist auf einen bestimmten Organismus (z. B. E. coli) oder ein Problem (wie Krebs) konzentrieren. Google ist für solche Dinge ziemlich hilfreich, sobald Sie die richtigen Schlüsselwörter haben.

**Webbasierte Tools für die Microarray-Analyse ** Es gibt mehrere Tools, die Sie für die Microarray-Analyse verwenden werden, und es gibt viele Websites für verschiedene Aspekte dieser Daten. Ich werde ein paar nennen, aber die am häufigsten verwendeten Tools sind Befehlszeilentools wie R/Bioconductor oder die Software des Array-Herstellers.

GEO2R ist ein großartiges Tool zum Durchsuchen von Expressionsdatenexperimenten. Es macht eine einfache Version von ANOVA und wird Ihnen wirklich helfen, schnell etwas coole Biologie zu finden.

VAMPIRE ist eine Webanalyse-Suite für Microarray-Analysen. Skalieren der Daten in Zahlen von Bildern über Intensitäten bis hin zur Datenanalyse, um mehrere Arrays zu vergleichen. Es ist wahrscheinlich eine der umfassendsten Analyseseiten da draußen.

"Hauptkomponentenanalyse" nicht "Hauptkomponentenanalyse". Es analysiert Hauptkomponenten. Rechtschreibfehler können zeigen, warum Sie es als Problem empfinden, weil Sie die Prinzipien hinter den Prinzipalen verstehen müssen.
Ich verstehe nicht, warum Sie nicht für die Verwendung von PCA, aber dennoch für die Akzeptanz von Näherungsclustering und selbstorganisierten Karten prädisponiert sind. Dabei spielt es keine Rolle, welches Huhn das Ei legt. Es sind Hühnereier.
Ich glaube nicht, dass es eine Diskussion ist, der wir uns in diesem Kommentarbereich hingeben sollten - aber kurz gesagt, die Leute, die es verwenden (in dem von Ihnen bereitgestellten Link), verstehen möglicherweise nicht die Bedeutung von "Hauptkomponenten".