Kommt die Zeichenfolge "...CATCAT..." in der DNA von Felis catus vor?

In Hofstadters Gödel, Escher, Bach: An Eternal Golden Braid (GEB) erscheint die folgende Behauptung:

...bei der Art Felis catus haben tiefe Untersuchungen ergeben, dass es tatsächlich möglich ist, den Phänotyp direkt vom Genotyp abzulesen. Der Leser wird diese bemerkenswerte Tatsache vielleicht besser verstehen, nachdem er den folgenden typischen Abschnitt der DNA von Felis catus direkt untersucht hat :

...CATCATCATCATCATCATCAT... ( OP-Hinweis: abgeschnitten, weil Sie es verstehen)

Ist das wahr? Eine oberflächliche Suche nach der DNA von Felis catus gibt mir diese Arbeit von Lopez, Cvario und O'Brien aus dem Jahr 1996, und die angegebene Sequenz erscheint nicht – es gibt einige Fälle von "CAT", die jedoch nicht genug wiederholt werden, um sie so bemerkenswert zu machen wie behauptet im GEB.

Ich weiß nicht genug Biologie, um die Richtigkeit dieser Behauptung zu beurteilen. Einige Punkte, die ich in Erwägung ziehe, sind:

  • GEB ist voller Wortspiele. Der Ton dieses Teils des Textes klingt für mich jedoch nicht danach.
  • GEB wurde um 1978 geschrieben/veröffentlicht. Das von mir verlinkte Papier – das laut Google von etwa 236 anderen zitiert wurde – wurde 1996 veröffentlicht, weit nach der Zeit von GEB. Wenn ich den Eindruck habe, dass die Arbeit von Lopez et al. bedeutend ist, weil es das erste Mal ist, dass Felis catus sequenziert wurde, dann kann Hofstadter unmöglich davon gewusst haben, als er GEB schrieb. Andererseits weiß ich nicht genug über Biologie, dass es einige Nuancen in der Arbeit von Lopez et al. geben könnte, die ich vermisse (dh die Ergebnisse der Arbeit schließen sich möglicherweise nicht gegenseitig mit der Behauptung aus, die in GEB gemacht wird).
  • GEB verfügt über Referenznotizen und eine Bibliographie, und es gibt keine zitierte Referenz, die diese Behauptung stützt. GEB versucht jedoch nicht, eine strenge akademische These zu sein, und die Referenzen werden nur dann stärker herangezogen, wenn Hofstadter andere Werke direkt zitiert, während die Bibliographie eine Liste von Lektüren ist, die der Leser in Bezug auf die Hauptthese des Buches nachlesen möchte .

Sind Katzen also Rekursionen ohne Basisfälle?

Willkommen bei BiologySE! Du bist mit einem Knall gekommen! ;)
Grundsätzlich gilt: Wenn Sie erstaunliche, wissenschaftlich beeindruckende Postulate in GEB finden, vergewissern Sie sich besser, ob Sie sie in einem der Dialoge entdeckt haben und nicht im Hauptmaterial. Hofstadters Dialogfiguren neigen dazu, sich mit der zugrunde liegenden Wissenschaft eine beträchtliche poetische Freiheit zu nehmen. Ich kenne den Abschnitt nicht, in dem Sie das gefunden haben, aber die Aussage, dass der Phänotyp vom Genotyp ableitbar ist, klingt sehr nach mehr Augenzwinkern, als eine durchschnittliche Katze hoffen könnte.
Hat die DNA von Lady Gaga GAGAGA?
Während ich das Katzengenom nicht kenne, bin ich mir ziemlich sicher, dass das Hundegenom DOG nicht enthält.
Ich stimme dafür, diese Frage als nicht zum Thema gehörend zu schließen, denn so amüsant es auch sein mag, die Beziehung zwischen dem englischen Wort Katze und den für Moleküle verwendeten Abkürzungen kann in keiner Weise als biologisch betrachtet werden. Vielleicht hat es etwas mit Statistik oder englischer Literatur zu tun.
Ich stimme dafür, diese Frage zu schließen, weil dies trivial und dumm ist.
Ich stimme dafür, diese Frage zu schließen, da diese Frage, wie @David in der Vergangenheit betont hat, trivial ist und keine biologische Relevanz hat.
@tyersome Dennoch wurde es mindestens 92 Mal positiv bewertet und 22 Mal favorisiert.
Ich stimme dafür, diese Frage zu schließen, da sie keinerlei wissenschaftliches Interesse hat.
Interessant. Ich sehe jetzt sowohl @tyrsome als auch ich habe vorher dafür gestimmt, dies zu schließen. Warum wurden unsere engen Stimmen entfernt?
@David Bcoz , den niemand sonst unterstützt hat, und Ihre Stimmen vergingen . Sie altern nach 14 Tagen.
@user237650 — Danke für die Info. Zumindest die Kommentare nicht.

Antworten (4)

Das Genom von Felis catus wurde seit 1996 ziemlich viel veröffentlicht, kommentiert und aktualisiert, einschließlich Spannen sogenannter intergenischer Regionen, die im Grunde genommen Gerüste und andere Strukturen sind, zusammen mit vielleicht einigen nicht identifizierten Genen, Pseudogenen, regulatorischen Sequenzen usw. Grundsätzlich , so ziemlich die gesamte DNA-Sequenz ist jetzt verfügbar, nicht nur die Gensequenz des mitochondrialen Genoms, die in dem von Ihnen erwähnten Artikel von 1996 veröffentlicht wurde. Mitochondrien sind die Kraftwerke der Zelle, aber nur ein Organell , das zufällig seine eigene DNA enthält; sie sind vom Chromosom getrenntDNA im Zellkern. All dies ist kostenlos erhältlich (wenn Sie wissen, wo Sie suchen müssen) im National Center for Biotechnology Information (NCBI), Teil der National Library of Medicine (NLM) an den National Institutes of Health (NIH) in den Vereinigten Staaten. Andere Websites sind ebenfalls verfügbar, wie z. B. Ensembl , ein Gemeinschaftsprojekt des European Bioinformatics Institute (EMBL-EBI), Teil des European Molecular Biology Laboratory (EMBL), und des Wellcome Trust Sanger Institute (WTSI). Beide Institute befinden sich auf dem Wellcome Trust Genome Campus in Großbritannien.

Also zum Genom. Genomsequenzen können auf verschiedene Arten durchsucht werden, je nachdem, wonach Sie suchen, aber die gebräuchlichste Methode ist die Verwendung von BLAST, dem Basic Local Alignment and Search Tool. Wie der Name schon sagt, nimmt es Sequenzen als Eingabe und sucht nacheinander, wobei die Ergebnisse mithilfe bestimmter Algorithmen, die der Benutzer definieren und optimieren kann, so gut wie möglich ausgerichtet werden. Die BLAST-Webschnittstelle zum Katzengenom ist hier . Sie müssen sich hier um keine der anderen Optionen kümmern, außer um das Feld "Abfragesequenz eingeben". Das FASTA-Format verwendet nur die Ein-Buchstaben-Abkürzungen für Nukleotide (AGCT), die alle aneinandergereiht sind.

Das Genom, das wir suchen, stammt von einer Abessinierkatze namens Cinnamon:

Zimt

Cinnamon, die Katze, die als endgültiges genetisches Modell für alle Katzen im Feline-Genom-Projekt ausgewählt wurde. Bild mit freundlicher Genehmigung des College of Veterinary Medicine an der University of Missouri .

Zunächst habe ich eingegeben CATCATCATCATund zu meiner Überraschung über 200 Treffer zurückerhalten, die jedes Chromosom der Katze abdeckten. Also habe ich die Länge der Eingabe auf 8 CATs verdoppelt und die gleiche Ergebnismenge zurückerhalten. Leider waren 12 CATs zu viel (und es ist wirklich zu viel), also habe ich rückwärts gearbeitet.

Die endgültigen Ergebnisse sind hier (Entschuldigung, Link läuft am 13.10.16 ab. Um neu zu generieren, gehen Sie zum BLAST-Link oben und geben Sie ein CATCATCATCATCATCATCATCATCATCAT). Anscheinend ist die Volksweisheit falsch, und die Chromosomen von Felis catus enthalten wirklich jeweils 10 CATs, eine mehr, als für ihre 9 Leben benötigt wird. Warum das so ist, ist noch nicht bekannt, aber Wissenschaftler arbeiten vermutlich daran.

Die Ironie mag ernst genommen werden, ich glaube nicht, dass es ein guter Ort für Witze ist.
@har-wradim was ist hier ironisch? Der letzte Satz? Kein Schaden, da ich per se nicht an tiefer Forschung über Katzen interessiert bin. Ich finde die Antwort sehr detailliert, und obwohl mein Biologiewissen begrenzt ist, fügt sich Matts Erklärung zusammen, ist reproduzierbar und überprüfbar. Nun, die Benutzeroberfläche von NCBI Blast hat keine Apple-Qualität, aber sie hält, soweit ich sie interpretieren kann.
Meine Frage ist, ist Felis Catus die einzige Art, für die dies gilt? Ich würde es anders vermuten.
@ Jan: Ich würde sagen, es ist sehr unwahrscheinlich. Dies ist nur ein Mustervergleich mit einem astronomischen Eingabesatz.
@JanDvorak kannst du dir ein Tier einfallen lassen, das mit A, T, C und G geschrieben ist?
DAS MOAR, DAS DU KENNST: Gerüchten zufolge hat eine bekannte Popsängerin viel „GAGA“ in ihrer DNA. In anderen Nachrichten: jede andere kohlenstoffbasierte Lebensform tut es auch.
Ich habe gehört, dass die gesamte Besetzung von Gattaca GATTACA-Sequenzen in ihrer DNA hatte. Der Großteil der Crew tat es. Ich rieche eine Verschwörung. Ich glaube, sie haben sogar ein Gesetz über große Zahlen verabschiedet, um das zu vertuschen.
Mein Hintergrund ist Mathematik; Ich bin dem Biology StackExchange beigetreten, um diesen Kommentar zu hinterlassen. Das Katzengenom ist wie unser eigenes etwa 3 Milliarden Basenpaare lang. Die Wahrscheinlichkeit, eine Sequenz von n Basenpaaren zu finden, die an einer bestimmten Position beginnt, ist 1 zu 4^n (da es 4 mögliche Basenpaare gibt), was für n = 12 etwa 1 zu 16 Millionen ist. Das bedeutet, dass Sie etwa 200 Übereinstimmungen für CATCATCATCAT erwarten würden, wenn alle kurzen Sequenzen gleich wahrscheinlich wären. Dies wird nicht ganz richtig sein, aber wie March betont, macht die weit verbreitete Existenz von Tandem-Wiederholungen Matches wie dieses noch wahrscheinlicher.
Wenn ich viele der Kommentare auf dieser Seite lese, habe ich das Gefühl, dass einige von uns hier Spaß haben, während andere, die weniger informiert sind, völlig verwirrt sind. Meine Stimme geht an @March Ho.
@har-wradim was genau bedeutet das?
@har-wradim macht nichts, ich verstehe. Einige Leute haben den Witz völlig verpasst und nehmen das viel zu ernst.
@skytreader "Die Benutzeroberfläche von NCBI Blast hat keine Apple-Qualität, aber ...", was bedeutet, dass sie die Genome von Äpfeln nicht durchsuchen kann? oder.. ?
@DaniloRamirez Apple wie wo Macbooks herkommen. Viele wissenschaftliche Tools, zum Teufel sogar Industrieprodukte, haben UIs, die nicht Apple-Qualität haben, aber dennoch nützlich und leistungsstark sind.
Ich schätze den Humor am Ende sehr :)
@skytreader Oh dieser Apple ... bitte nicht ... :) das Wortspiel war aus dem ersten Kommentar beabsichtigt, aber danke, dass du es sehr erklärend gehalten hast
@MattDMo Also verstehe ich es richtig, könnte es eine andere Katze als Cinnamon geben, die mehr CATCATCAT haben kann ... als sie? Weil wir nur einen Genotyp analysiert haben und die anderer Organismen der gleichen Art unterschiedlich sein können, oder?
@nuoritoveri Ja, das ist möglich.
Ich denke, das ist die längste ncbi.nlm.nih.gov/nuccore/… ( C EIN T ) 41 (umgekehrt ergänzt) Vielleicht haben Sie vergessen, "Regionen mit geringer Komplexität maskieren" zu deaktivieren?

Während Matts Antwort vollkommen richtig ist, ist es wichtig zu beachten, dass die Reihenfolge ( C EIN T ) n in DNA ist nicht auf Katzen beschränkt, und Sie würden erwarten, dass Sie es überall finden.

Zum Beispiel führt das Durchsuchen des menschlichen Genoms nach der gleichen 3-Tandem-Wiederholungssequenz CATebenfalls zu vielen Treffern.

Dies liegt daran, dass Sie im Wesentlichen nach kurzen Tandem-Wiederholungen auf dem DNA-Strang suchen . Diese Wiederholungen können in jedem Organismus vorkommen, und daher CATmag es zwar amüsant sein, Teilstrings in der DNA der Katze zu finden, aber sie sind nichts Besonderes für Katzen (oder irgendein anderes Tier) und sind nur das Ergebnis eines Artefakts der zufälligen Benennung der Basen passend zum Namen des Tieres.

Die Basen werden nicht nur „benannt“, sie repräsentieren die vier stickstoffhaltigen Basen: Adenin, Cytosin, Guanin und Thymin.
@SummerEla Sie haben zwar Recht, aber ich verstehe nicht, wie ungenau es ist, das "Benennung" zu nennen.
Nun, es ist eher ein Akronym als ein Benennungssystem: Diese drei Nukleotide zusammen (Codon genannt) arbeiten letztendlich in Codonketten zusammen, um für ein bestimmtes Protein zu kodieren.
@SummerEla Wenn die Basen Adenin, Bytosin, Cuanin und Dymin heißen würden, dann hättest du BADBADBAD. Wenn sie qurine, quadrium, quitterium und quinterone heißen würden, dann hätten Sie QQQQQQQQQ. Usw. Indem Sie sie umbenennen, können Sie ein beliebiges kurzes Wort mit nur vier verschiedenen Buchstaben bilden und es in einem beliebigen Chromosom eines beliebigen Tieres finden - zum Beispiel könnten Sie das menschliche Y-Chromosom "MENS" enthalten lassen.
@immibis was? Mein Punkt war, dass die Basen nicht willkürlich benannt sind, sie stehen tatsächlich für Nukleotide, die Aminosäuren umfassen, die zusammen Proteine ​​bilden.
Aber die Benennung der Nukleotide selbst ist letztlich willkürlich. Laut etymonline.com wird Adenin „so genannt, weil es aus der Bauchspeicheldrüse eines Ochsen gewonnen wurde“, während Guanin „von Guano, aus dem die Chemikalie zuerst isoliert wurde“ und Thymin „von Thymiansäure, aus der es stammte“, benannt wurde isoliert" (Cytosin kommt von Cyto und bedeutet "Zelle"). Wären die Entdeckungen anders erfolgt, hätten diese Chemikalien ganz andere Namen.
HAHAHA (nein, keine neu zugeordnete/umbenannte Nukleotidsequenz – wirklich zum Lachen). Aus irgendeinem Grund macht dies die GEB-Behauptung lustiger. Danke für die Klarstellung!
@SummerEla Nun ja, wenn die Sequenz "Cytosin, Adenin, Thymin" eine bestimmte Sache codiert. Dasselbe gilt für die Sequenz "Quadrium, Qurine, Quinterone", da dies eigentlich dieselbe Sequenz ist. Ich verwende nur unterschiedliche Namen, um auf dieselben Basen zu verweisen.
@SummerEla So auch "Thymin, Adenin, Cytosin" in einer alternativen Zeitachse, in der sich das Wort "Thymin" auf die Base mit einem Ring und einer NH2-Untergruppe bezieht und "Cytosin" sich auf die Base mit einem Ring und ohne NH2-Untergruppe bezieht.
@SummerEla Außerdem bin ich mir ziemlich sicher, dass Nukleotide keine Aminosäuren umfassen, sondern nur für sie kodieren.
@RobinSaunders Guano? Du meinst, ein Viertel unserer DNA ist nach Fledermausscheiße benannt? Ich denke, das sollte mich mehr überraschen.
Kann diese 10x-Sequenz gemäß Matts Antwort (dass es eine 10x-Sequenz gibt) in anderen Organismen gefunden werden?

Um die anderen Antworten zu ergänzen, berechnen wir die Wahrscheinlichkeit, dass CATCATCATCAT in einer zufälligen DNA-Sequenz auftritt.

Die Länge der Katzen-DNA beträgt 2,7 Gigabasen ( Quelle ), und es gibt 4 mögliche Basen. Für 1 CAT gibt es 3 Basen, was die erwartete Anzahl von Vorkommen in 2,7 Gb als ergibt 2.7 10 9 4 3 42 188 000

Die Wiederholung der Rechnung für längere Sequenzen ergibt:

  • 1 CAT: 42 188 000 Vorkommnisse
  • 2 CAT: 659 180 Vorkommnisse
  • 3 CAT: 10 300 Vorkommnisse
  • 4 CAT: 160 Vorkommen
  • 5 CAT: 2 Vorkommen
  • 6 CAT: 0 Vorkommen

Es gibt also in der Tat viel mehr CATs in Katzen, als rein zufällig zu erwarten wäre.

Es wäre nicht allzu überraschend, wenn wiederholte Sequenzen wahrscheinlicher auftreten würden als die meisten Sequenzen.
DNA ist keine so einfache zufällige Sequenz, und insbesondere treten Wiederholungen über der Wahrscheinlichkeit auf. Dies ist daher kein guter Ansatz.
@JackAidley Meiner Meinung nach ist dies ein guter Ansatz, um genau zu demonstrieren, dass Wiederholungen häufiger auftreten als in einer zufälligen Reihenfolge.
@jba: Das tut es. Aber an der Sequenz „CAT“ im Katzengenom ist nichts Besonderes. Es ist eine allgemeine Eigenschaft von Wiederholungen. Vielleicht könnten Sie Ihre Antwort bearbeiten, um den Punkt zu verdeutlichen, den Sie machen, und warum?
Indem Sie die erwartete Anzahl von Vorkommen als Poisson-Parameter interpretieren, können Sie das Vorkommen von 6 CATs als Wahrscheinlichkeit interpretieren (durch die Transformation λ 1 exp ( λ ) ) von etwa 4 %, dass Sie so viele in zufälliger Reihenfolge haben würden. Wie jpa betont, ist dies ein gutes Argument dafür, dass STRs wie CATCAT ... wahrscheinlicher sind, als der Zufall vermuten lässt.
Vielmehr ist es ein Argument dafür, dass DNA-Sequenzen nicht so zufällig sind, wie diese Berechnung annimmt.
@reinierpost aus CAT-Sicht ist es zufällig. Die Bedeutung, die wir CAT zuschreiben, ist für DNA willkürlich. Es ist so zufällig wie der Index der Zahl Pi, bei der man anfangen muss, um ein Katzenvideo zu finden.
@CandiedOrange: Das ist nicht das, was diese Antwort mit "zufällig" meint. Es geht davon aus, dass die C-, A-, T- und G-Elemente in dem Sinne völlig zufällig sind, dass die Wahrscheinlichkeit, dass eines von ihnen an einer bestimmten Stelle in der Sequenz erscheint, völlig unabhängig von den umgebenden Elementen in der Sequenz ist - und das ist es nicht der Fall.
@reinierpost Diese beiden Ideen von Random sind die gleiche Idee von Random, das ist mein Punkt.

Es gibt hier also bereits ein paar großartige Antworten, aber es scheint, dass niemand einen interessanten Teil Ihrer Frage angesprochen hat: GEB wurde 1978 veröffentlicht und das Genom von Felis catus wurde erst viele Jahre später sequenziert ... also woher wusste er das?

Die Antwort von jpa zeigt, dass Sie erwarten würden, nur etwa fünf CATs zu bekommen - nicht zehn, und die Chance, zehn zu bekommen, ist astronomisch gering. Ich habe seine Tabelle erweitert, um die deprimierend geringe Chance zu zeigen, durch vollkommenen Zufall zehn zu bekommen:

5 CAT: 2.5 expected per Felis catus genome
6 CAT: 0.04 expected
7 CAT: 0.00061
8 CAT: 9.54 e-6
9 CAT: 1.49 e-7
10 CAT: 2.32 e-9

Das heißt, Sie würden erwarten, 10 CATs etwa 0,00000000232 Mal pro zufälligem Genom zu finden. Wie um alles in der Welt hat das Felis-catus-Genom schließlich zehn KATZEN darin enthalten? Und woher wusste Hofstadter, dass es so viele CATs geben würde?

Wie sich herausstellt, wird diese wiederholte Sequenz von wenigen Basenpaaren als "Short Tandem Repeat" oder "Mikrosatellit" bezeichnet. Dies ist der Fall, wenn eine 2–5 Basenpaarsequenz mehrmals wiederholt wird, normalerweise zwischen 5 und 50 Mal.

Um es noch einmal zusammenzufassen: Wir wissen, dass die Chance, diese 10-CAT-Sequenz zu erhalten, etwas wahrscheinlicher ist, aber da wir nur auf das Felix-catus-Genom beschränkt sind, ist uns definitiv keine 10xCAT-Sequenz garantiert. Wie also hat Hofstadter es so dargestellt, als ob es eine Tatsache wäre?

Wie sich herausstellt, besteht eine entscheidende Eigenschaft von STRs oder kurzen Tandem-Wiederholungen darin, dass Mutationen in diesen Bereichen weitaus häufiger vorkommen und einen großen Teil der genetischen Variation zwischen einzelnen Mitgliedern einer Art ausmachen. Diese Entdeckung wurde mit dem Aufkommen der DNA-Sequenzierung gemacht, die nur wenige Jahre vor der Veröffentlichung des Buches begann. Angesichts einer großen Population nicht identischer Katzen (die wir haben) können wir daher zuversichtlich sagen, dass die Wahrscheinlichkeit für eine 10xCAT-Sequenz extrem hoch ist.

Hofstadters Genie kombinierte auf perfekte Weise Mathematik (nur 2.32e-9 erwartete Sequenzen pro Genom) mit Biologie (Mikrosatelliten erhöhen die Chance, diese Sequenz zu finden) mit forensischer Genetik (in einer Population derselben Spezies weisen Individuen wahrscheinlich viele STR-bezogene Unterschiede auf .) All dies zusammen gab Hofstadter das, was er selbstbewusst sagen musste: ja, CATCATCATCATCATCATCATCATCATCAT existiert mit ziemlicher Sicherheit in der DNA von Felis catus. Solche Kleinigkeiten sind der Grund, warum Gödel, Escher, Bach mein Lieblingsbuch aller Zeiten ist.