Kommentieren Sie die Einleitung zu einer Bioinformatik-Arbeit

Question

Kommentieren Sie die Einleitung zu einer Bioinformatik-Arbeit

Fahem Mitha

Ich habe eine Arbeit über die DNA-Sequenzanalyse geschrieben. Dieses Papier versucht, die Bayes'sche Modellierung für einen Satz von DNA-Sequenzen zu verwenden. Es wird wahrscheinlich entweder in einem Statistik-Journal oder eher in einem Bioinformatik-Journal landen. Meine Sorge ist, dass Biologen an einigen Formulierungen in der Einleitung Anstoß nehmen könnten.

Ich versuche, eine Verbindung zwischen der Motiventdeckung von De Novo und der Modellierung der Sequenzen herzustellen. Vielleicht ist es ein bisschen weit hergeholt. Zum Beispiel verwende ich eine Sprache wie "die Analyse einer Reihe von DNA-Sequenzen mit biologischer Bedeutung, indem man sich nur auf die darin enthaltenen Motive konzentriert, verwirft möglicherweise wertvolle Informationen, zum Beispiel mögliche langreichweitige Korrelationen zwischen Nukleotidpositionen in den Sequenzen." Außerdem: "Ein alternativer und möglicherweise komplementärer Ansatz besteht darin, eine Sequenz als eine einzelne Einheit zu betrachten und zu versuchen, eine direkte statistische Analyse dafür durchzuführen ... Dieser Ansatz wird in diesem Artikel verwendet, der keine Markov-Techniken verwendet. Stattdessen Es versucht, die Korrelationsstruktur über die Sequenz hinweg zu modellieren."

Die Frage ist also, ob es besser ist, zu versuchen, eine explizite Verbindung herzustellen, auf die Gefahr hin, Dinge zu sagen, die falsch und allgemein überdehnt sind, als nur zu sagen (was ein wenig lahm erscheint), dass dieses Problem der Sequenzklassifizierung damit zusammenhängt De-Novo-Motivfindungsproblem und dabei belassen. Kommentare?

Ich füge die ersten paar Absätze der Einleitung unten hinzu. Dies umfasst alle relevanten Sprachen.

Ich bin bereit, meinen aktuellen Entwurf an alle zu senden, die daran interessiert sind, mehr über den Kontext zu erfahren. Ich möchte aber keinen öffentlichen Link dazu posten.

DNA-Sequenzmotive sind Nukleotidsequenzmuster, von denen angenommen wird, dass sie eine biologische Bedeutung haben. Oft weisen sie auf sequenzspezifische Bindungsstellen für Proteine wie Nukleasen und Transkriptionsfaktoren (TF) hin. Andere sind an wichtigen Prozessen auf RNA-Ebene beteiligt, einschließlich Ribosomenbindung, mRNA-Prozessierung (Spleißen, Editieren, Polyadenylierung) und Transkriptionstermination. Die Motiventdeckung ist ein sehr aktives Forschungsgebiet. Die sogenannte „de novo computergestützte Entdeckung“ ist vielleicht die beliebteste, bei der ein Algorithmus verwendet wird, um gemeinsame Kandidatenmotive zu identifizieren, wenn nur ein Satz von DNA-Sequenzen gegeben wird. Dies kann man sich als die Aufgabe vorstellen, einen Satz nicht überlappender, annähernd übereinstimmender Teilzeichenketten bei einem gegebenen Anfangssatz von Zeichenketten zu finden. Dies ist ein sehr schwieriges Problem.

Aus einer allgemeineren Perspektive wird die DNA-Sequenzanalyse häufig unter Verwendung von DNA-Sequenzmotiven durchgeführt. Es ist vernünftig, die Frage zu stellen: Was macht eine Sequenz zu einem Motiv? Aus biologischer Sicht ist ein Motiv einfach die kleinste identifizierbare Sequenzunterkomponente von etwas Größerem. Diese Unterkomponente kann als das kleinste identifizierbare Teil einer Funktionalität im Zusammenhang mit der zugrunde liegenden Biologie betrachtet werden. Daher konzentriert sich die Sequenzanalyse häufig auf die Identifizierung dieser Motive. Diese Motive sind jedoch typischerweise sehr kurz, sodass die Analyse eines Satzes von DNA-Sequenzen mit biologischer Bedeutung allein durch Fokussierung auf die darin enthaltenen Motive möglicherweise wertvolle Informationen verwirft, beispielsweise mögliche langreichweitige Korrelationen zwischen Nukleotidpositionen in den Sequenzen.

Ein alternativer und möglicherweise ergänzender Ansatz besteht darin, eine Sequenz als eine einzelne Einheit zu betrachten und zu versuchen, sie direkt statistisch zu analysieren. Dieser Ansatz wird seltener verwendet. Ein Grund dafür ist, dass solche Sequenzen schnell zu groß werden können und für Markov-Ansätze nicht gut geeignet sind. Dieser Ansatz wird in diesem Artikel verwendet, der keine Markov-Techniken verwendet. Stattdessen versucht es, die Korrelationsstruktur über die Sequenz hinweg zu modellieren.

Wir tun dies, indem wir ein geeignetes Bayes'sches Modell an diesen Satz anpassen, indem wir die Bayes'sche Modellauswahl verwenden. Wie oben angemerkt, ist unser Hauptgrund für dieses Modell die Annahme, dass die Nukleotidpositionen dieses Satzes untereinander korreliert sind. Unter Berücksichtigung dieser Annahme konstruieren wir eine Familie von Wahrscheinlichkeitsverteilungen, um diese Korrelationsinformationen zu erfassen, wie in Unterabschnitt 2.1 beschrieben.

Resonanz

Technisch gesehen bin ich kein Biologe, ich bin Bioingenieur, aber selbst Biologen verstehen die Grenzen von HMM für die Motivfindung. Wenn Sie über lange Distanzen konservierte Disulfidbrücken und dergleichen aufgreifen können, ist das wertvoll. Sie haben nichts geschrieben, das die Federn kräuselt, was kein gutes Rüschen braucht.

Fahem Mitha

@JeremyKemball Danke für das Feedback. Erwägen Sie, eine formelle Antwort zu schreiben, wenn Sie sich dabei wohlfühlen. Ich bin mir jedoch nicht sicher, was "Disulfidbrücken" sind.

Resonanz

Cysteinreste bilden über lange Sequenzabstände -SS-Bindungen. Sie sind ein großes strukturelles/funktionales Merkmal, das mit Markov-Modellen schwer zu erkennen ist. Sie implizieren also nichts zu Ungewöhnliches. Ich werde keine formelle Antwort einreichen, weil ich nicht wirklich in diesem Bereich arbeite. Vielleicht übersehe ich etwas? Wer weiß.

Antworten (1)

Kommentieren Sie die Einleitung zu einer Bioinformatik-Arbeit

Technisch gesehen bin ich kein Biologe, ich bin Bioingenieur, aber selbst Biologen verstehen die Grenzen von HMM für die Motivfindung. Wenn Sie über lange Distanzen konservierte Disulfidbrücken und dergleichen aufgreifen können, ist das wertvoll. Sie haben nichts geschrieben, das die Federn kräuselt, was kein gutes Rüschen braucht.
@JeremyKemball Danke für das Feedback. Erwägen Sie, eine formelle Antwort zu schreiben, wenn Sie sich dabei wohlfühlen. Ich bin mir jedoch nicht sicher, was "Disulfidbrücken" sind.
Cysteinreste bilden über lange Sequenzabstände -SS-Bindungen. Sie sind ein großes strukturelles/funktionales Merkmal, das mit Markov-Modellen schwer zu erkennen ist. Sie implizieren also nichts zu Ungewöhnliches. Ich werde keine formelle Antwort einreichen, weil ich nicht wirklich in diesem Bereich arbeite. Vielleicht übersehe ich etwas? Wer weiß.

ddiez · Answer 1

Bioinformatik-Journale können mit dieser Art von Papieren perfekt umgehen. Wenn Sie auf eine Zeitschrift wie Bioinformatics abzielen , können Sie so technisch sein, wie Sie möchten (und Sie sollten es wahrscheinlich auch tun). Biologen, die diese Zeitschriften lesen, werden höchstwahrscheinlich die Terminologie verstehen.

Sogar traditionelle Zeitschriften für experimentelle Biologie, wie Nucleic Acids Research , enthalten jetzt einen Abschnitt für Computational Biology, der ein perfektes Ziel für eine Arbeit über DNA-Motivanalyse sein kann. Wenn Sie sich bei einer solchen Zeitschrift einreichen, müssen Sie jedoch berücksichtigen, dass die Zielgruppe möglicherweise breiter ist als die typische Bioinformatik-Zeitschrift.

Wenn Sie darauf abzielen, dass Biologen die Konzepte verstehen, müssen Sie akzeptieren, dass es Biologen mit sehr unterschiedlichem Verständnis der Bioinformatik geben wird. Wie in einigen Kommentaren erwähnt, verstehen einige Biologen möglicherweise, was Hidden-Markov-Modelle sind, andere haben den Begriff jedoch möglicherweise noch nie zuvor gehört. Ich würde vorschlagen, dass Sie versuchen, die Dinge sehr ausführlich zu erklären, wenn Sie auf eine Zeitschrift mit Schwerpunkt Biologie abzieleneinfache Begriffe, die die Konzepte mit Beispielen aus dem wirklichen Leben verbinden. Sie können diese Erklärungen als Einleitung zu detaillierteren Beschreibungen verwenden. Je nach Zeitschrift möchten Sie möglicherweise die technischen Details, einschließlich Formeln, in ergänzendes Material aufnehmen. Wenn Sie die technischen Details aus dem Hauptmanuskript heraushalten, wird es für die allgemeine Leserschaft zugänglich, aber die Details in ergänzendem Material verleihen Ihrer Arbeit Strenge und ermöglichen es jedem, der an Ihrer Forschung interessiert ist, die Details zu überprüfen.

Hallo, ich habe das ein paar Mal gelesen, aber es scheint nicht meine Frage zu beantworten. Sie scheinen eine Frage zu beantworten, die ich nicht gestellt habe, etwa wo ist ein guter Ort, um ein solches Papier zu platzieren. Ich stelle eine ziemlich spezifische Frage (vielleicht nicht zu gut formuliert), die mit dem Satz "Ich versuche, eine Verbindung zwischen der Entdeckung des De-Novo-Motivs und der Modellierung der Sequenzen herzustellen" zusammengefasst werden könnte. Kurz gesagt, ich frage mich, ob die Aussagen, die ich in der Einleitung (zitiert) mache, als kontrovers oder anstößig angesehen würden.
Hi. Ja, es ist möglich, dass ich dein Problem nicht verstanden habe. Ich dachte, der zitierte Teil sei ein Beispiel für die Art der Beschreibung, die Sie geben würden. Meine Antwort war eher darauf ausgerichtet, wie man generell an das Schreiben einer auf Biologen ausgerichteten Zeitschrift herangehen sollte. Wenn Sie sich fragen, ob dieser bestimmte Textabschnitt für Biologen klar genug sein sollte, dann ist meine Meinung, ja. Für Biologen, die an Transkriptionsfaktoren und anderen sequenzbezogenen Themen interessiert sind, sollte es leicht verständlich sein.
Recht. Nun, meine Sorge war nicht, ob Biologen es verstehen würden (ich denke, sie würden es), sondern ob sie Einwände dagegen erheben würden. :-)
Denke nicht, dass sie widersprechen würden. Ich meine, diejenigen ohne viel Kenntnis der Theorie werden die Einfachheit zu schätzen wissen. Die anderen können die detaillierteren Beschreibungen überprüfen. Es hängt auch ziemlich davon ab, wer Ihre Zielgruppe ist! Vielleicht sollte ich meine Antwort mit einigen dieser Gedanken aktualisieren? Was denkst du?
Das Aktualisieren Ihrer Antwort klingt vernünftig. Ein Teil meiner Frage war implizit, ob meine Beobachtungen konventioneller Weisheit entsprachen. Siehe die Kommentare zu meiner Frage von Jeremy, die ziemlich zielführend sind.

Kommentieren Sie die Einleitung zu einer Bioinformatik-Arbeit

Fahem Mitha

Resonanz

Fahem Mitha

Resonanz

Antworten (1)

ddiez

Fahem Mitha

ddiez

Fahem Mitha

ddiez

Fahem Mitha

Marker-Validierung unter Verwendung von Transkriptom- und genomischen Sequenzen, die von einer einzelnen Zelle stammen

Empfohlener Sequenz-Clustering-Algorithmus für Transkriptomdaten

Wie interpretiert man die von Clustal Omega erstellte prozentuale Identitätsmatrix?

Was ist der Unterschied zwischen lokalen und globalen Sequenzalignments?

Tool zum Nukleotid-Alignment mit allen Nukleotid-Codes (zB R, Y, W, S, etc.)?

Was sind kodominante vs. dominante genetische Marker?

Was ist der neueste Algorithmus für multiples Sequenzalignment?

Wie kann man die Sequenzen von PDB-Strukturen über Uniprot-Referenzen abgleichen?

Welche DNA-Sequenz hat eine höhere Schmelztemperatur: CCCCCC ... oder GCGCGC ...?

Ausblenden identischer Sequenzen in der NCBI-Weboberfläche