Wie validiert man die aus Genexpressionsdaten abgeleiteten regulatorischen Wechselwirkungen?

Mein Algorithmus lernt die regulatorische Interaktion zwischen Genen unter Verwendung des Bayesian Network-Ansatzes aus Genexpressionsdaten. Nachdem der Algorithmus zu einem Netzwerk von interagierenden Genen konvergiert ist, wie kann man überprüfen, ob die Interaktionen korrekt sind? Ich habe den Lungenkrebs-Datensatz von NCBI GEO mit der ID: GDS2771 verwendet. Wie kann man auch den Satz von Genen ermitteln, die für eine Krankheit (in diesem Fall Lungenkrebs) verantwortlich sind, und wie kann man ihre Expressionsniveaus als über- oder unterexprimiert quantifizieren?

Dies erfordert möglicherweise weitere Details des von Ihnen verwendeten Modells. Zum Beispiel hätte das Modell einfach zufällig 10 Gene auswählen und sagen können, dass sie interagieren - obwohl ich annehme, dass es etwas Komplexeres tut :)
Und ja, ich stimme GriffinEvo zu, dass Sie zuerst sicherstellen sollten, dass der Algorithmus richtig verwendet wurde, die Parameter richtig eingestellt sind usw.
Einige wichtige Parameter des Algorithmus sind die Diskretisierungsschwellenwerte für die Klassifizierung von Genexpressionswerten als über, unter oder normal exprimiert. Ich bin mir auch ziemlich unsicher, was die Schwellenwerte sein sollten, und der andere wichtige Parameter ist, wie viele Regulatoren es für ein Gen maximal geben kann? Irgendeine Idee, wie man das regelt?
Ich habe deinen Beitrag auch als Bioinformatik markiert. Wenn sich Ihre Anfrage auf die Modelloptimierung bezieht, klären Sie dies in der Frage.

Antworten (1)

Sie können die Interaktionen validieren, indem Sie ein Gen niederschlagen (KD) oder überexprimieren (OE) und die Änderung der Expressionsniveaus der nachgeschalteten Knoten überprüfen. Sie können dies mit Microarray oder RNAseq mit hohem Durchsatz tun. Für Protein können Sie ein LC-MS machen. Diese Methode kann Ihnen jedoch nicht helfen bei:

  1. Unterscheidung zwischen direkten und indirekten Wechselwirkungen
  2. Finden von Regelungen bei Schleifen und anderen nichtlinearen Wechselwirkungen im Netzwerk

Schleifen sind knifflig, aber das Abtasten in mehreren Zeitintervallen kann Sie darüber informieren, ob Schwingungen vorhanden sind oder nicht. Für die meisten üblichen Fälle funktioniert dieser Ansatz.

Normalerweise folgt darauf eine weitere Validierungsrunde unter Verwendung einer relativ niedrigen Durchsatz, aber empfindlichen Technik, wie z

  • Echtzeit-PCR (KD vs. OE)
  • Western Blots (KD vs. OE)
  • Reporter-Assays (KD vs. OE) würden direkte Wechselwirkungen nachweisen. Beispielsweise wird ein möglicher Promotor für einen (Transkriptionsfaktor) TF (stromaufwärts von Gen-Y) verwendet, um GFP zu exprimieren, um zu sehen, ob GFP auf den TF reagiert; wodurch die Wirkung von TF auf Gen-Y über den Promotor bestätigt wird.

In einigen Fällen müssen Sie ChIP-seq durchführen, um herauszufinden, ob ein Gen Bindungsstellen für einen TF in seinem Promotor/Enhancer hat. Sie können auch Vorhersagen für TF-Bindungsstellen verwenden. Informationen zum Auffinden der Regulation durch miRNAs finden Sie in diesem Beitrag.

Um komplexe Dynamiken wie Pulse und Schwingungen zu finden, müssen Sie Zeitverlaufsdaten sammeln.

Wie kann man ihre Expressionsniveaus als über- oder unterexprimiert quantifizieren?

Dazu müssen Sie zuerst Ihre Steuerung definieren (oben/unten geregelt bzgl. was?). Danach können Sie den Ausdruck vergleichen und die richtigen statistischen Tests verwenden, um die unterschiedliche Regulation zu überprüfen. Wenn Sie nur eine Probe haben, funktionieren die meisten Tests nicht. Für RNAseq werden EM-Algorithmen verwendet, die ein bayesisches Modell verwenden, um Wahrscheinlichkeiten und p-Werte zu erhalten (ich habe Manschettenknöpfe und eXpress verwendet). Dann kann eine FDR-Korrektur durchgeführt werden, wenn der Test mit der Kontrolle verglichen wird. Ich bin mir nicht sicher, welche Algorithmen zum Vergleich von LC-MS-Daten für Proteine ​​verwendet werden.

Nun, ich mache keine Nasslaborexperimente, ich verwende maschinelle Lerntechniken für die Expressionsdatenmatrix. Wie würde ich dann das Expressionsmuster eines Gens niederschlagen oder überexprimieren? Indem ich niedrige Werte für Knockdown und hohe Werte für Überexpression festlege und dann prüfe, wie sich die regulatorischen Wechselwirkungen für dieses Gen ändern?
@Aparajita Du hast "validieren" gesagt. Du musst Nasslaborexperimente durchführen, um zu validieren. Ihr Modell kann nur Vorhersagen aus bestimmten Daten treffen. Sie müssten testen, ob es richtig vorhersagt, ein Kontrollexperiment. Wenn nicht, sollten Sie Ihre Modellparameter aktualisieren.