Wie validiert man die aus Genexpressionsdaten abgeleiteten regulatorischen Wechselwirkungen?

Question

Wie validiert man die aus Genexpressionsdaten abgeleiteten regulatorischen Wechselwirkungen?

Biologie
Bioinformatik
Genexpression
Genregulation
Molekularbiologie

Aparajita

Mein Algorithmus lernt die regulatorische Interaktion zwischen Genen unter Verwendung des Bayesian Network-Ansatzes aus Genexpressionsdaten. Nachdem der Algorithmus zu einem Netzwerk von interagierenden Genen konvergiert ist, wie kann man überprüfen, ob die Interaktionen korrekt sind? Ich habe den Lungenkrebs-Datensatz von NCBI GEO mit der ID: GDS2771 verwendet. Wie kann man auch den Satz von Genen ermitteln, die für eine Krankheit (in diesem Fall Lungenkrebs) verantwortlich sind, und wie kann man ihre Expressionsniveaus als über- oder unterexprimiert quantifizieren?

rg255

Dies erfordert möglicherweise weitere Details des von Ihnen verwendeten Modells. Zum Beispiel hätte das Modell einfach zufällig 10 Gene auswählen und sagen können, dass sie interagieren - obwohl ich annehme, dass es etwas Komplexeres tut :)

WYSIWYG

Und ja, ich stimme GriffinEvo zu, dass Sie zuerst sicherstellen sollten, dass der Algorithmus richtig verwendet wurde, die Parameter richtig eingestellt sind usw.

Aparajita

Einige wichtige Parameter des Algorithmus sind die Diskretisierungsschwellenwerte für die Klassifizierung von Genexpressionswerten als über, unter oder normal exprimiert. Ich bin mir auch ziemlich unsicher, was die Schwellenwerte sein sollten, und der andere wichtige Parameter ist, wie viele Regulatoren es für ein Gen maximal geben kann? Irgendeine Idee, wie man das regelt?

WYSIWYG

Ich habe deinen Beitrag auch als Bioinformatik markiert. Wenn sich Ihre Anfrage auf die Modelloptimierung bezieht, klären Sie dies in der Frage.

Antworten (1)

Wie validiert man die aus Genexpressionsdaten abgeleiteten regulatorischen Wechselwirkungen?

Dies erfordert möglicherweise weitere Details des von Ihnen verwendeten Modells. Zum Beispiel hätte das Modell einfach zufällig 10 Gene auswählen und sagen können, dass sie interagieren - obwohl ich annehme, dass es etwas Komplexeres tut :)
Und ja, ich stimme GriffinEvo zu, dass Sie zuerst sicherstellen sollten, dass der Algorithmus richtig verwendet wurde, die Parameter richtig eingestellt sind usw.
Einige wichtige Parameter des Algorithmus sind die Diskretisierungsschwellenwerte für die Klassifizierung von Genexpressionswerten als über, unter oder normal exprimiert. Ich bin mir auch ziemlich unsicher, was die Schwellenwerte sein sollten, und der andere wichtige Parameter ist, wie viele Regulatoren es für ein Gen maximal geben kann? Irgendeine Idee, wie man das regelt?
Ich habe deinen Beitrag auch als Bioinformatik markiert. Wenn sich Ihre Anfrage auf die Modelloptimierung bezieht, klären Sie dies in der Frage.

WYSIWYG · Answer 1

Sie können die Interaktionen validieren, indem Sie ein Gen niederschlagen (KD) oder überexprimieren (OE) und die Änderung der Expressionsniveaus der nachgeschalteten Knoten überprüfen. Sie können dies mit Microarray oder RNAseq mit hohem Durchsatz tun. Für Protein können Sie ein LC-MS machen. Diese Methode kann Ihnen jedoch nicht helfen bei:

Unterscheidung zwischen direkten und indirekten Wechselwirkungen
Finden von Regelungen bei Schleifen und anderen nichtlinearen Wechselwirkungen im Netzwerk

Schleifen sind knifflig, aber das Abtasten in mehreren Zeitintervallen kann Sie darüber informieren, ob Schwingungen vorhanden sind oder nicht. Für die meisten üblichen Fälle funktioniert dieser Ansatz.

Normalerweise folgt darauf eine weitere Validierungsrunde unter Verwendung einer relativ niedrigen Durchsatz, aber empfindlichen Technik, wie z

Echtzeit-PCR (KD vs. OE)
Western Blots (KD vs. OE)
Reporter-Assays (KD vs. OE) würden direkte Wechselwirkungen nachweisen. Beispielsweise wird ein möglicher Promotor für einen (Transkriptionsfaktor) TF (stromaufwärts von Gen-Y) verwendet, um GFP zu exprimieren, um zu sehen, ob GFP auf den TF reagiert; wodurch die Wirkung von TF auf Gen-Y über den Promotor bestätigt wird.

In einigen Fällen müssen Sie ChIP-seq durchführen, um herauszufinden, ob ein Gen Bindungsstellen für einen TF in seinem Promotor/Enhancer hat. Sie können auch Vorhersagen für TF-Bindungsstellen verwenden. Informationen zum Auffinden der Regulation durch miRNAs finden Sie in diesem Beitrag.

Um komplexe Dynamiken wie Pulse und Schwingungen zu finden, müssen Sie Zeitverlaufsdaten sammeln.

Wie kann man ihre Expressionsniveaus als über- oder unterexprimiert quantifizieren?

Dazu müssen Sie zuerst Ihre Steuerung definieren (oben/unten geregelt bzgl. was?). Danach können Sie den Ausdruck vergleichen und die richtigen statistischen Tests verwenden, um die unterschiedliche Regulation zu überprüfen. Wenn Sie nur eine Probe haben, funktionieren die meisten Tests nicht. Für RNAseq werden EM-Algorithmen verwendet, die ein bayesisches Modell verwenden, um Wahrscheinlichkeiten und p-Werte zu erhalten (ich habe Manschettenknöpfe und eXpress verwendet). Dann kann eine FDR-Korrektur durchgeführt werden, wenn der Test mit der Kontrolle verglichen wird. Ich bin mir nicht sicher, welche Algorithmen zum Vergleich von LC-MS-Daten für Proteine verwendet werden.

Nun, ich mache keine Nasslaborexperimente, ich verwende maschinelle Lerntechniken für die Expressionsdatenmatrix. Wie würde ich dann das Expressionsmuster eines Gens niederschlagen oder überexprimieren? Indem ich niedrige Werte für Knockdown und hohe Werte für Überexpression festlege und dann prüfe, wie sich die regulatorischen Wechselwirkungen für dieses Gen ändern?
@Aparajita Du hast "validieren" gesagt. Du musst Nasslaborexperimente durchführen, um zu validieren. Ihr Modell kann nur Vorhersagen aus bestimmten Daten treffen. Sie müssten testen, ob es richtig vorhersagt, ein Kontrollexperiment. Wenn nicht, sollten Sie Ihre Modellparameter aktualisieren.

Wie validiert man die aus Genexpressionsdaten abgeleiteten regulatorischen Wechselwirkungen?

Aparajita

rg255

WYSIWYG

Aparajita

WYSIWYG

Antworten (1)

WYSIWYG

Aparajita

WYSIWYG

Datenbanken für genregulatorische Netzwerkgraphen?

Können Gene sequentiell exprimiert werden?

Genstörung, wofür wird sie verwendet, Computerwissenschaftlern erklären? [geschlossen]

Sind die untergeordneten Gene eines verdrängten Operons wirklich "ausgeschaltet"?

Verwendung von RNA-seq zum Vergleich der Genexpression zwischen Patienten statt zwischen Kontroll- und experimentellen Bedingungen

Hilfe bei der Suche nach bestimmten BlaZ-Gentypsequenzen in der Genbank

Kopienzahlregelung & CNV

Wie kann der CI-Repressor den im λλ\lambda-Phagen gefundenen PRMPRMP_{RM}-Promotor sowohl aktivieren als auch reprimieren?

Wie viel Zeit brauchen die unterschiedlichen Mechanismen der Genregulation, um zu wirken?

Wie lässt sich die Regulationsrichtung eines Gens durch den Vergleich von Genexpressionen bestimmen?