Ich werde den Kontext dieser Frage klären, damit die möglichen Antworten effektiv auf das ausgerichtet werden können, wonach ich suche.
Informationen (zumindest im nicht-semantischen, kanonischen Sinne des Wortes) können entweder mit dem statistischen Ansatz von Shannon oder dem rechnerischen Ansatz von Kolmogorov definiert werden. Ersteres legt es fest als eine Vorstellung von durchschnittlicher Codewortlänge, ausgedrückt in einem willkürlichen Alphabet - das in jedem Lehrbuch, das ich zitieren kann, bewusst als binäres Alphabet gewählt wird -, das benötigt wird, um eine bijektive Zuordnung zu den Ergebnissen einer zufälligen Quelle zu erstellen; das Source-Coding-Theorembeweist, dass diese Definition gleich der Entropie der Quelle in der statistischen Grenze einer unendlichen Anzahl von Ergebnissen ist. Der zweite Ansatz verwendet universelle Computer in einem willkürlichen Modell (fast immer als UTM gewählt) und definiert dann die in einer Quelle enthaltenen Informationen als die Länge des minimalen selbstbegrenzten Programms in der Sprache des Computers, der die ausgibt Ergebnisse der Quelle; Da die Wahl einer Referenz-UTM die Länge eines minimalen Programms nur zu einem konstanten Begriff machen kann, der sich von jeder anderen Wahl unterscheidet, ist die Definition ziemlich robust.
Tatsächlich subsumiert der Kolmogorov-Ansatz die Shannon-Definition , da die Wahrscheinlichkeitsverteilungsprioritäten, die zum Codieren der Quelle und zum Decodieren der Nachrichten benötigt werden, äquivalent zu einer Turing-Maschine sind, die ein Entropiecodierungsschema berechnet (wie Huffman- oder arithmetische Codierungen).
Im Wesentlichen basiert die moderne Definition von „Information“ wiederum auf der äußerst flexiblen und einzigartigen (dh absoluten) Definition von Berechnung, die durch die Universalitätsergebnisse der ersten Hälfte des zwanzigsten Jahrhunderts hervorgebracht wurde .
Trotzdem finde ich diese Geschichte etwas unbefriedigend. Berechnungen als Grundlage für Informationen zu verwenden, scheint die Welt auf den Kopf zu stellen, zumindest unter einem intuitiven Verständnis dessen, was der Begriff bezeichnet, und im Gegensatz zu den kanonischen Definitionen von Shannon und Kolmogorov. Computer sind Prozeduren (oder prozedurfolgende Objekte, ein bedeutungsloser Unterschied im Lichte der Turing-Universalität und der gegenseitigen Simulation von Maschinen) und damit eine besondere Art von Beziehung – Rekursion – zwischen einer Eingabe und einer Ausgabe . Obwohl diese Art von Beziehung einzigartig und absolut ist, scheint sie mir notwendigerweise ex post zum Begriff von Input und Output zu sein; und diese beiden sind das "Zeug"was intuitiv zum Begriff "Information" passt. Sie können sagen, dass eine Berechnung existiert, indem Sie eine Historie der Schritte (die gestapelte Liste der Eingaben und Ausgaben) anzeigen, genauso wie Sie explizit eine logische Ableitung in sequentieller Notation zeigen können. Die Church-Turing-These würde dann nur sagen, dass die Klasse der Stapelungen von Inputs und Outputs, die mit allen Mitteln effektiv erzeugt werden können, durch die Turing-Maschine oder jedes andere äquivalente Berechnungsmodell erschöpft ist.
Andererseits braucht das „Zeug“, aus dem die Eingaben und Ausgaben (intuitive Informationen) bestehen, im Prinzip nicht unbedingt einen Hilfsbezug zur Berechnung, um als existent zu gelten. Eine Reihe von Symbolen muss mit keiner anderen verwandt sein; sie kann isoliert existieren, daher ist kein zwingender Verweis auf ein Verfahren erforderlich (auch hier überlasse ich die Formalisierung dieser Intuition als Übung dem Leser; ich erwarte nur, dass ich mit genügend Sinn spreche, um verstanden zu werden).
Um diesen Abschnitt zu beenden, lasse ich diesen Lebenslauf:
Unter der Annahme, dass Information das grundlegende Material ist, das erforderlich ist, damit das Konzept der Berechnung Sinn macht, kann man sich fragen, was das minimale Alphabet (dh die minimale Menge an verschiedenen Symbolen ) ist, das benötigt wird, um jede Form von Information in dem oben erläuterten Sinne auszudrücken. Die naheliegende Antwort könnte sein, dass das binäre Alphabet die Antwort auf diese Frage ist – schließlich wird das Bit als universelles Maß für die Kanalkapazität verwendet. Aber es stellt sich heraus, dass ich in keinem Lehrbuch, das ich gelesen habe, einen Abschnitt gefunden habe, der sich damit befasst, dies zu erklären und formal zu beweisen, geschweige denn, es elegant und prägnant zu tun! Noch einmal, es mag offensichtlich klingen, aber wenn die Grundlagen der Wissenschaft Information und Berechnung sind (ein Trend, der mittlerweile seit fast einem Jahrhundert andauert), denke ich ernsthaftEs sollte festgestellt werden, dass die Binärziffer die "einfachste und grundlegendste mögliche Einheit von (verallgemeinertem) Zeug" ist .
Ich formuliere jetzt meine Frage richtig:
Und ich lasse diese Metafrage, basierend auf der allzu langen Einleitung zur Hauptfrage:
Und zum Schluss natürlich:
Informationen unterscheiden zwischen mehreren Sachverhalten ; was zumindest auf eine Voreingenommenheit in der Wahrscheinlichkeit hinweist, dass ein bestimmter Sachverhalt verwirklicht wird, und idealerweise darauf hinweist, dass ein einzelner Sachverhalt verwirklicht wird, während eine Reihe von Alternativen dies nicht getan hat.
Um eine Informationseinheit zu haben, müssen Sie mindestens zwei mögliche Sachverhalte haben. Herkömmlicherweise könnten wir diese Sachverhalte als den Wahrheitswert eines logischen Satzes beschreiben: Wir haben entweder A oder Nicht-A . Solche binären Unterscheidungen sind die gröbsten und elementarsten Methoden zur Unterscheidung von Sachverhalten in der klassischen (und verwandten Formen der Booleschen) Logik. Jede Informationstheorie, die sich aus einer solchen Logik ergibt, wird zwangsläufig dazu tendieren, zweiwertige Wahlmöglichkeiten – dh ein bisschen – als Informationseinheit anzugeben.
Wir können die Probleme betrachten, etwas Minimaleres zu erhalten, insbesondere einen unären Ansatz, der ein Ein-Buchstaben-Alphabet beinhaltet (aber wo wir Wörter unterschiedlicher Länge haben), indem wir ernsthaft überlegen, welche kombinatorische Maschinerie erforderlich ist, um mehr als eine Möglichkeit herauszuholen ein unäres Gerüst. In den Kommentaren schlagen Sie eine Einstellung vor, in der es Nachrichten gibt, die aus einem einzelnen Buchstaben bestehen, möglicherweise ergänzt durch ein einmaliges "Dateiende"-Zeichen. Lassen Sie mich diese beiden Buchstaben mit '1' und 'E' bezeichnen.
In der Multiletter-Einstellung wollen wir immer noch mehr als eine endliche Anzahl von Signalen ausdrücken, obwohl wir ein Alphabet von endlicher Größe haben. (Versuche, unendliche Alphabete zu verwenden, führen zu Genauigkeitsproblemen, bei denen wir irgendwie die Unterscheidbarkeit von zwei „Buchstaben“ bestätigen müssen. Dies ist ein Bootstrapping-Problem ohne offensichtliche Lösung. Also beschränken wir uns auf endliche Alphabete.) So wie wir Der Umgang damit besteht darin, verschiedene Sachverhalte mit Folgen von Charakteren mit unterschiedlichen Sachverhalten zu assoziieren. Das Spiel „zwanzig Fragen“ ist ein gutes Beispiel dafür (allerdings in einem interaktiven Setting), wo man versucht, durch eine Folge von Ja/Nein-Fragen fester Länge auf die Identität eines Objekts zu schließen.
Wir können also ein Alphabet T beliebiger Größe simulieren, indem wir einfach eine ausreichend große Anzahl von Zeichen aus einem kleineren Alphabet Σ verwenden . Wenn Sie jedoch keinen festen Code verwenden, bei dem Sie anhand der ersten n Zeichen sicher sein können, ob Sie ein n + 1. Zeichen erwarten, um die Nachricht zu vervollständigen, müssen Sie Zeichenfolgen mit fester Länge verwenden.
Wir können Zeichenfolgen fester Länge durch das n - fache (kartesische) Produkt des Alphabets mit sich selbst, Σ n , modellieren . Das Problem mit einem unären Alphabet Σ = {1} ist, dass Σ n die gleiche Größe hat wie Σ selbst, was den Zweck verfehlt.
Was hindert uns daran, Zeichenfolgen mit variabler Länge zu berücksichtigen? Wenn wir Alphabete mit mehreren Buchstaben haben, überhaupt nichts; aber wir müssen uns darüber im Klaren sein, wie wir die Länge der Zeichenfolge beschreiben – die, ob Metadaten oder nicht, immer noch Informationen sind; es definiert, wie wir das Signal interpretieren sollen. Auf einer Festplatte zum Beispiel bedeutet ein Dateiendezeichen E nicht wirklich, dass der Platte keinerlei Informationen folgen; nur dass die folgenden Daten für die übermittelten Informationen irrelevant sind (z. B. durch die spezifische Datei, auf die verwiesen wird).
Mathematisch können wir Dateien mit einer Länge von 0 bis n beschreiben, indem wir eines der Zeichen E verwenden, um „Ende der Nachricht“ anzuzeigen, was bedeutet, dass zwei Zeichenketten, die diesem Zeichen entsprechen, als gleichwertig anzusehen sind. Wenn wir beispielsweise ein Alphabet Σ = {1,E} verwenden, würden wir sagen, dass die beiden Zeichenfolgen
111E1111 und 111E1EE1
als gleichwertig, da sie bis zum Zeichen E ganz links übereinstimmen. Wir würden die Äquivalenzklasse, zu der diese beiden Zeichenfolgen gehören, mit 111 abkürzen. Wir benötigen jedoch das zweite Zeichen, um zu definieren, wo der "Informationsgehalt" der Zeichenfolge endet, und damit anzugeben, welche Äquivalenzklasse von Zeichenfolgen wir mit der Nachricht beabsichtigen . Dies würde auch in einem praktischen Kommunikationskontext zutreffen, wo Protokolle eingerichtet werden, um verschiedenen Geräten anzuzeigen, wenn sie tatsächlich nicht mehr mit einem entfernten Gerät kommunizieren (anstatt zufälliges Rauschen als Daten zu interpretieren).
Natürlich beschreiben wir Zeichenfolgen unterschiedlicher Länge normalerweise nicht in Form von Äquivalenzklassen von Zeichenfolgen beliebiger endlicher oder unendlicher Länge. Dies ist jedoch eine Bequemlichkeit; in der alltäglichen Praxis, in der Mathematik wie in der normalen Prosa, haben wir Sequenzende-Markierungen, wenn auch nur in Form von Leerzeichen und Satzzeichen, die selbst ein unterscheidbares Signal von jeder Markierung wie 0 oder 1 sind; Wenn ich 11 und 101 schreibe, wissen Sie, dass dies Zeichenfolgen der Länge 2 bzw. 3 sind, da eine Zeichenfolge mit einem Leerzeichen und eine andere mit einem Komma abgeschlossen wird. Sie verwechseln sie nicht mit den Saiten „ 11 an... “ oder „ 101, you kn…", weil die Konventionen unserer geschriebenen Sprache diese als potenzielle Sequenzende-Markierungen für Wörter oder Zeichenfolgen im Allgemeinen festlegen. Das heißt, sie übermitteln diese Informationen. Ohne sie auf diese Weise zu interpretieren, hätten Sie keine Ahnung, wann ein Wort ist oder ein Satz endete, und somit kein Ort, um die Komplexität der Botschaft, die ich Ihnen sende, zu begrenzen.
Jemand, der darauf besteht (ich würde sagen naiv), dass er unäre Sequenzen beliebiger Länge „intuitiv“ unterscheiden kann und somit unterschiedliche Botschaften mit den Zeichenfolgen 1, 11, 111, 1111, 11111 usw. kommunizieren kann, würde ich sagen, dass dies wieder hinfällig ist zum gleichen Problem wie ein unendlich langes Alphabet; Metadaten werden entscheidend für das Problem der Unterscheidung möglicher Signale, und daher codieren die Metadaten letztendlich die Nachricht – dh die Metadaten sind die Daten selbst. Ich glaube nicht, dass es möglich ist, den Unterschied zwischen zwei Nachrichten 111...1, die sich über 1000 Zeichen fortsetzen, von einer von 1001 Zeichen sofort zu erfassen; die Darstellung selbst muss Hinweise darauf enthalten, wo die Nachricht beginnt und endet, wenn auch nur in Form von Leerzeichen eines ruhenden Grundliniensignals anstelle eines offenen Signals. Die Unterscheidung, ob die Nachricht geendet hat oder nicht, wird entscheidend, um zu bestimmen, wo die Nachricht geendet hat.
Die Unterteilung von Zeichen in „Daten“ und „Metadaten“ ist eine Unterteilung, die wir praktisch in Bezug auf Nachrichten selbst vornehmen. Metadaten kommunizieren jedoch immer noch Sachverhalte, die sich für die korrekte Interpretation der gesendeten Nachricht als wesentlich erweisen können. Beispielsweise zeigt ein Dateiendezeichen den Stand der Dinge an " es gibt keine Zeichen mehr, die in der Nachricht eine Rolle spielen ", während jedes Zeichen, das (in oder außerhalb des Kontexts) kein Dateiende anzeigt für Nachrichten von unbestimmter Länge gibt an, dass mehr Zeichen für die Begriffsklärung erforderlich sind". Wenn die Rolle von Informationen grundsätzlich darin besteht, Sachverhalte zu disambiguieren, dann ist unsere eigene Einteilung von Sachverhalten in "diejenigen, die die Nachricht selbst betreffen" und "diejenigen, die nicht die Nachricht selbst betreffen", nebensächlich, so nützlich sie auch sein mag Wenn die Nachricht von ungewisser Länge ist, ist es notwendig, ein Mittel zu haben, um mitzuteilen, wie lang die Nachricht tatsächlich ist, und dies ist mit einem Ein-Buchstaben-Alphabet unmöglich, das – weil es nur kann eine Nachricht beliebiger fester Länge übermitteln – kann nicht in beliebig vielen Zeichen zwischen zwei Sachverhalten unterscheiden.
[Bearbeitet, um Bemerkungen zu Kombinatorik, unären Schemata hinzuzufügen]
Ich denke, Sie haben Recht, dass Berechnungen nicht grundlegend sind, aber für mich besteht der Sinn der Verwendung von Berechnungen darin, dass Sie mit universellen Berechnungen alles berechnen können, einschließlich aller gewünschten Informationsmetriken. Daher bedeutet das Messen von Informationen in Form von Berechnungen lediglich, sich unendliche Ausdrucksmöglichkeiten zunutze zu machen. Es ist keine Aussage, dass die Berechnung hier das Wichtigste ist, sondern nur, dass Sie damit machen können, was Sie wollen.
Auch konstante Faktoren spielen eine große Rolle. Wenn ich eine Programmiersprache erfinde, die den vorherigen Absatz als Symbol ☆ enthält, dann gibt es nur einen konstanten Unterschied in der Programmlänge, um den obigen Absatz auszudrücken (etwa 440x), und dennoch habe ich es völlig versäumt, die Intuition über Informationen zu erfassen, die Kolmogorov wurde vermutlich angestrebt. Wenn Sie sich nicht selbst die Beschränkung auf die Verwendung kompakter Allzweck-Computergeräte auferlegen, liefern die Kolmogorov-Informationsmaßnahmen unsinnige Ergebnisse. Dies verdeutlicht auch, dass Berechnungen nicht das Fundament von Informationen sind. Vielmehr ist es ein Werkzeug (das entsprechend eingesetzt werden muss) zur Analyse.
Allerdings glaube ich nicht, dass Sie "beweisen" können, dass das Bit die grundlegende Informationseinheit ist. Sie können sicherlich eine Reihe von Axiomen übernehmen, die etwas logisch Äquivalentes zu "das Bit ist die grundlegende Informationseinheit" enthalten. Die meisten Texte über Shannon-Informationen tun genau dies (indem sie beweisen, dass die Shannon-Informationen von -p log p
die richtige sind † , und die rechnerisch trivialste Darstellung* mit log
= ist log2
). Aber wenn Sie auf einer tieferen Ebene fragen, glaube ich nicht, dass Sie zeigen können, dass das Bit aus biologischer Sicht eher grundlegend als das Aktionspotential (oder die synaptische Freisetzung) ist; oder als die Standardabweichung(oder Konfidenzintervall) aus analoger statistischer Sicht. Auf einer gewissen Ebene sind sie alle gleichwertig (aber Sie müssen ziemlich hart graben, um voneinander zu kommen), und welche Sie bevorzugen, hängt von Ihrer Perspektive ab.
† Aus einem sehr guten Grund, wie Ihnen jedes einführende Lehrbuch beweisen wird.
* Nicht aus einem wirklich guten Grund, außer dass zwei Zustände die minimal mögliche Anzahl sind, und es passiert einfach so, dass sich die Physik verschworen hat, Geräte mit zwei Zuständen einfacher zu bauen als andere, und deshalb sind unsere Computer binär.
H = -C * sum_i(- p_i log p_i)
Änderung der Basis von log
nur die Konstante ändert. Es ist insofern "am einfachsten", als ein Zustandsraum von zwei der einfachste möglich ist, und Sie können wählen, ob Sie daraus bauen möchten.{0}
. Nun, das ist langweilig, nicht wahr? Versuchen wir es noch einmal: {0, 1}
. Hey, jetzt können wir Informationen haben – welche von zwei Möglichkeiten ist das? Das ist alles, was ich zu sagen versuche. Es ist nicht sehr tiefgründig, weshalb ich glaube, dass es kein starkes Argument für Binär gibt. Wenn Tristabilität wirklich üblich wäre und Bistabilität nicht, dann würden wir die Basis 3 verwenden, wobei Bistabilität ein entarteter Fall von Tristabilität ist.Ich glaube nicht, dass das Bit die grundlegende Informationseinheit ist. Es ist aus einer bestimmten Perspektive, aber andere könnten gewählt werden.
Die Begründung in Kürze lautet wie folgt:
a. Welches Wissen wir haben, lässt sich mathematisch kodifizieren
b. Mathematik kann immer als Zahlen kodiert werden
c. Die einfachste Darstellung in einem Zahlensystem ist die Basis 2
Schritt a) ist, wo Wissen im Gegensatz zu Information üblicherweise herunterfällt, worauf Sie hinweisen, indem Sie den Unterschied zwischen Information und „Semantik“ zugeben. Das Bit ist einfach eine gute technische Wahl - das soll seine Bedeutung nicht schmälern. Wenn gesagt wird, dass das Bit grundlegend ist, sollte der Kontext erhalten bleiben, und dies ist der rechnerische und technische Kontext.
Schrift ist eine Form der Information, gäbe es keine wirkliche Person, die sie verstehen könnte, wäre sie lediglich eine Folge von geometrischen Formen, die durch Leerzeichen getrennt sind.
Sie haben recht damit, Informationen (wie in Bits) zu verwechseln, das heißt c) für Wissen, das a) die Welt auf den Kopf stellt. Aber natürlich können Bits selbst zu einer neuen Wissensquelle werden. Die Situation ist also subtiler, als ich beschrieben habe.
Niel de Beaudrap
Mono
Niel de Beaudrap
Mono