Ich habe eine Arbeit über die DNA-Sequenzanalyse geschrieben. Dieses Papier versucht, die Bayes'sche Modellierung für einen Satz von DNA-Sequenzen zu verwenden. Es wird wahrscheinlich entweder in einem Statistik-Journal oder eher in einem Bioinformatik-Journal landen. Meine Sorge ist, dass Biologen an einigen Formulierungen in der Einleitung Anstoß nehmen könnten.
Ich versuche, eine Verbindung zwischen der Motiventdeckung von De Novo und der Modellierung der Sequenzen herzustellen. Vielleicht ist es ein bisschen weit hergeholt. Zum Beispiel verwende ich eine Sprache wie "die Analyse einer Reihe von DNA-Sequenzen mit biologischer Bedeutung, indem man sich nur auf die darin enthaltenen Motive konzentriert, verwirft möglicherweise wertvolle Informationen, zum Beispiel mögliche langreichweitige Korrelationen zwischen Nukleotidpositionen in den Sequenzen." Außerdem: "Ein alternativer und möglicherweise komplementärer Ansatz besteht darin, eine Sequenz als eine einzelne Einheit zu betrachten und zu versuchen, eine direkte statistische Analyse dafür durchzuführen ... Dieser Ansatz wird in diesem Artikel verwendet, der keine Markov-Techniken verwendet. Stattdessen Es versucht, die Korrelationsstruktur über die Sequenz hinweg zu modellieren."
Die Frage ist also, ob es besser ist, zu versuchen, eine explizite Verbindung herzustellen, auf die Gefahr hin, Dinge zu sagen, die falsch und allgemein überdehnt sind, als nur zu sagen (was ein wenig lahm erscheint), dass dieses Problem der Sequenzklassifizierung damit zusammenhängt De-Novo-Motivfindungsproblem und dabei belassen. Kommentare?
Ich füge die ersten paar Absätze der Einleitung unten hinzu. Dies umfasst alle relevanten Sprachen.
Ich bin bereit, meinen aktuellen Entwurf an alle zu senden, die daran interessiert sind, mehr über den Kontext zu erfahren. Ich möchte aber keinen öffentlichen Link dazu posten.
DNA-Sequenzmotive sind Nukleotidsequenzmuster, von denen angenommen wird, dass sie eine biologische Bedeutung haben. Oft weisen sie auf sequenzspezifische Bindungsstellen für Proteine wie Nukleasen und Transkriptionsfaktoren (TF) hin. Andere sind an wichtigen Prozessen auf RNA-Ebene beteiligt, einschließlich Ribosomenbindung, mRNA-Prozessierung (Spleißen, Editieren, Polyadenylierung) und Transkriptionstermination. Die Motiventdeckung ist ein sehr aktives Forschungsgebiet. Die sogenannte „de novo computergestützte Entdeckung“ ist vielleicht die beliebteste, bei der ein Algorithmus verwendet wird, um gemeinsame Kandidatenmotive zu identifizieren, wenn nur ein Satz von DNA-Sequenzen gegeben wird. Dies kann man sich als die Aufgabe vorstellen, einen Satz nicht überlappender, annähernd übereinstimmender Teilzeichenketten bei einem gegebenen Anfangssatz von Zeichenketten zu finden. Dies ist ein sehr schwieriges Problem.
Aus einer allgemeineren Perspektive wird die DNA-Sequenzanalyse häufig unter Verwendung von DNA-Sequenzmotiven durchgeführt. Es ist vernünftig, die Frage zu stellen: Was macht eine Sequenz zu einem Motiv? Aus biologischer Sicht ist ein Motiv einfach die kleinste identifizierbare Sequenzunterkomponente von etwas Größerem. Diese Unterkomponente kann als das kleinste identifizierbare Teil einer Funktionalität im Zusammenhang mit der zugrunde liegenden Biologie betrachtet werden. Daher konzentriert sich die Sequenzanalyse häufig auf die Identifizierung dieser Motive. Diese Motive sind jedoch typischerweise sehr kurz, sodass die Analyse eines Satzes von DNA-Sequenzen mit biologischer Bedeutung allein durch Fokussierung auf die darin enthaltenen Motive möglicherweise wertvolle Informationen verwirft, beispielsweise mögliche langreichweitige Korrelationen zwischen Nukleotidpositionen in den Sequenzen.
Ein alternativer und möglicherweise ergänzender Ansatz besteht darin, eine Sequenz als eine einzelne Einheit zu betrachten und zu versuchen, sie direkt statistisch zu analysieren. Dieser Ansatz wird seltener verwendet. Ein Grund dafür ist, dass solche Sequenzen schnell zu groß werden können und für Markov-Ansätze nicht gut geeignet sind. Dieser Ansatz wird in diesem Artikel verwendet, der keine Markov-Techniken verwendet. Stattdessen versucht es, die Korrelationsstruktur über die Sequenz hinweg zu modellieren.
Wir tun dies, indem wir ein geeignetes Bayes'sches Modell an diesen Satz anpassen, indem wir die Bayes'sche Modellauswahl verwenden. Wie oben angemerkt, ist unser Hauptgrund für dieses Modell die Annahme, dass die Nukleotidpositionen dieses Satzes untereinander korreliert sind. Unter Berücksichtigung dieser Annahme konstruieren wir eine Familie von Wahrscheinlichkeitsverteilungen, um diese Korrelationsinformationen zu erfassen, wie in Unterabschnitt 2.1 beschrieben.
Bioinformatik-Journale können mit dieser Art von Papieren perfekt umgehen. Wenn Sie auf eine Zeitschrift wie Bioinformatics abzielen , können Sie so technisch sein, wie Sie möchten (und Sie sollten es wahrscheinlich auch tun). Biologen, die diese Zeitschriften lesen, werden höchstwahrscheinlich die Terminologie verstehen.
Sogar traditionelle Zeitschriften für experimentelle Biologie, wie Nucleic Acids Research , enthalten jetzt einen Abschnitt für Computational Biology, der ein perfektes Ziel für eine Arbeit über DNA-Motivanalyse sein kann. Wenn Sie sich bei einer solchen Zeitschrift einreichen, müssen Sie jedoch berücksichtigen, dass die Zielgruppe möglicherweise breiter ist als die typische Bioinformatik-Zeitschrift.
Wenn Sie darauf abzielen, dass Biologen die Konzepte verstehen, müssen Sie akzeptieren, dass es Biologen mit sehr unterschiedlichem Verständnis der Bioinformatik geben wird. Wie in einigen Kommentaren erwähnt, verstehen einige Biologen möglicherweise, was Hidden-Markov-Modelle sind, andere haben den Begriff jedoch möglicherweise noch nie zuvor gehört. Ich würde vorschlagen, dass Sie versuchen, die Dinge sehr ausführlich zu erklären, wenn Sie auf eine Zeitschrift mit Schwerpunkt Biologie abzieleneinfache Begriffe, die die Konzepte mit Beispielen aus dem wirklichen Leben verbinden. Sie können diese Erklärungen als Einleitung zu detaillierteren Beschreibungen verwenden. Je nach Zeitschrift möchten Sie möglicherweise die technischen Details, einschließlich Formeln, in ergänzendes Material aufnehmen. Wenn Sie die technischen Details aus dem Hauptmanuskript heraushalten, wird es für die allgemeine Leserschaft zugänglich, aber die Details in ergänzendem Material verleihen Ihrer Arbeit Strenge und ermöglichen es jedem, der an Ihrer Forschung interessiert ist, die Details zu überprüfen.
Resonanz
Fahem Mitha
Resonanz