Prägnantes Argument für die grundlegende Rolle von Binärziffern als Informationseinheiten

Ich werde den Kontext dieser Frage klären, damit die möglichen Antworten effektiv auf das ausgerichtet werden können, wonach ich suche.

Informationen (zumindest im nicht-semantischen, kanonischen Sinne des Wortes) können entweder mit dem statistischen Ansatz von Shannon oder dem rechnerischen Ansatz von Kolmogorov definiert werden. Ersteres legt es fest als eine Vorstellung von durchschnittlicher Codewortlänge, ausgedrückt in einem willkürlichen Alphabet - das in jedem Lehrbuch, das ich zitieren kann, bewusst als binäres Alphabet gewählt wird -, das benötigt wird, um eine bijektive Zuordnung zu den Ergebnissen einer zufälligen Quelle zu erstellen; das Source-Coding-Theorembeweist, dass diese Definition gleich der Entropie der Quelle in der statistischen Grenze einer unendlichen Anzahl von Ergebnissen ist. Der zweite Ansatz verwendet universelle Computer in einem willkürlichen Modell (fast immer als UTM gewählt) und definiert dann die in einer Quelle enthaltenen Informationen als die Länge des minimalen selbstbegrenzten Programms in der Sprache des Computers, der die ausgibt Ergebnisse der Quelle; Da die Wahl einer Referenz-UTM die Länge eines minimalen Programms nur zu einem konstanten Begriff machen kann, der sich von jeder anderen Wahl unterscheidet, ist die Definition ziemlich robust.

Tatsächlich subsumiert der Kolmogorov-Ansatz die Shannon-Definition , da die Wahrscheinlichkeitsverteilungsprioritäten, die zum Codieren der Quelle und zum Decodieren der Nachrichten benötigt werden, äquivalent zu einer Turing-Maschine sind, die ein Entropiecodierungsschema berechnet (wie Huffman- oder arithmetische Codierungen).

Im Wesentlichen basiert die moderne Definition von „Information“ wiederum auf der äußerst flexiblen und einzigartigen (dh absoluten) Definition von Berechnung, die durch die Universalitätsergebnisse der ersten Hälfte des zwanzigsten Jahrhunderts hervorgebracht wurde .

Trotzdem finde ich diese Geschichte etwas unbefriedigend. Berechnungen als Grundlage für Informationen zu verwenden, scheint die Welt auf den Kopf zu stellen, zumindest unter einem intuitiven Verständnis dessen, was der Begriff bezeichnet, und im Gegensatz zu den kanonischen Definitionen von Shannon und Kolmogorov. Computer sind Prozeduren (oder prozedurfolgende Objekte, ein bedeutungsloser Unterschied im Lichte der Turing-Universalität und der gegenseitigen Simulation von Maschinen) und damit eine besondere Art von Beziehung – Rekursion – zwischen einer Eingabe und einer Ausgabe . Obwohl diese Art von Beziehung einzigartig und absolut ist, scheint sie mir notwendigerweise ex post zum Begriff von Input und Output zu sein; und diese beiden sind das "Zeug"was intuitiv zum Begriff "Information" passt. Sie können sagen, dass eine Berechnung existiert, indem Sie eine Historie der Schritte (die gestapelte Liste der Eingaben und Ausgaben) anzeigen, genauso wie Sie explizit eine logische Ableitung in sequentieller Notation zeigen können. Die Church-Turing-These würde dann nur sagen, dass die Klasse der Stapelungen von Inputs und Outputs, die mit allen Mitteln effektiv erzeugt werden können, durch die Turing-Maschine oder jedes andere äquivalente Berechnungsmodell erschöpft ist.

Andererseits braucht das „Zeug“, aus dem die Eingaben und Ausgaben (intuitive Informationen) bestehen, im Prinzip nicht unbedingt einen Hilfsbezug zur Berechnung, um als existent zu gelten. Eine Reihe von Symbolen muss mit keiner anderen verwandt sein; sie kann isoliert existieren, daher ist kein zwingender Verweis auf ein Verfahren erforderlich (auch hier überlasse ich die Formalisierung dieser Intuition als Übung dem Leser; ich erwarte nur, dass ich mit genügend Sinn spreche, um verstanden zu werden).

Um diesen Abschnitt zu beenden, lasse ich diesen Lebenslauf:

  1. Information, verstanden in einem intuitiven Sinne von "generalisiertem abstraktem Zeug" , scheint grundlegender zu sein als Berechnung, da der Begriff des Verfahrens eine Bezugnahme auf ersteres impliziert. Informationen sollten als bloße Zeichenketten verstanden werden, und Symbole sind als verallgemeinerter Stoff (alles, was unterschieden werden kann ) zu verstehen ;
  2. Worauf sich der kanonische Begriff „Information“ bezieht, ist eine Recheneigenschaft von Information im Sinne von 1. Ich persönlich bevorzuge es, den Begriff Komplexität in beiden Fällen der Shannon- und Kolmogorov-Definitionen zu verwenden und den Begriff Information auf bloßes „Zeug“ zu beschränken. (ohne Bezug auf Berechnung oder Wahrscheinlichkeit Priors; dh Zeichenfolgen "wie gegeben").

Unter der Annahme, dass Information das grundlegende Material ist, das erforderlich ist, damit das Konzept der Berechnung Sinn macht, kann man sich fragen, was das minimale Alphabet (dh die minimale Menge an verschiedenen Symbolen ) ist, das benötigt wird, um jede Form von Information in dem oben erläuterten Sinne auszudrücken. Die naheliegende Antwort könnte sein, dass das binäre Alphabet die Antwort auf diese Frage ist – schließlich wird das Bit als universelles Maß für die Kanalkapazität verwendet. Aber es stellt sich heraus, dass ich in keinem Lehrbuch, das ich gelesen habe, einen Abschnitt gefunden habe, der sich damit befasst, dies zu erklären und formal zu beweisen, geschweige denn, es elegant und prägnant zu tun! Noch einmal, es mag offensichtlich klingen, aber wenn die Grundlagen der Wissenschaft Information und Berechnung sind (ein Trend, der mittlerweile seit fast einem Jahrhundert andauert), denke ich ernsthaftEs sollte festgestellt werden, dass die Binärziffer die "einfachste und grundlegendste mögliche Einheit von (verallgemeinertem) Zeug" ist .

Ich formuliere jetzt meine Frage richtig:

  • a) Wie kann prägnant (aber nicht heuristisch ) bewiesen werden, dass das Bit die grundlegende Informationseinheit ist und es nichts Einfacheres oder Geringeres gibt, das die Aufgabe erfüllen könnte?

Und ich lasse diese Metafrage, basierend auf der allzu langen Einleitung zur Hauptfrage:

  • b) Gibt es ein Buch, in dem Informationen aus dem „Bottom-up“-Ansatz entwickelt werden, den ich hier „den intuitiven Sinn des Wortes Information“ nenne, dh Symbolketten als Grundlage nehmen und dann abgeleitete Begriffe wie Berechnung und Statistik entwickeln von dort?

Und zum Schluss natürlich:

  • c) Macht alles, was ich hier geschrieben habe, einen Sinn?
„Informationen sollten als bloße Symbolketten verstanden werden, und Symbole sind als verallgemeinerte Dinge (alles, was unterschieden werden kann) zu verstehen. […] Angenommen, Informationen sind die grundlegenden Dinge, die erforderlich sind, damit das Konzept der Berechnung Sinn macht, eins fragen sich vielleicht, was das minimale Alphabet (dh die minimale Menge an verschiedenen Symbolen) ist, das benötigt wird, um irgendeine Form von Information auszudrücken [...]." Wenn Information eine Reihe von Symbolen ist, die willkürlich unterscheidbare Dinge darstellen können, was hindert Sie dann daran, einfach zu dem Schluss zu kommen, dass zwei unterscheidbare Referenzen das Minimum sind?
Weil jemand ohne Hintergrund in der Codierungstheorie nicht ganz offensichtlich findet, dass ein einzelnes Symbol (unär) nicht ausreicht, um unterscheidbare Objekte zu konstruieren. In der Antwort von Rex Kerr unten habe ich erklärt, wie ich mit diesen Fragen umgehe, aber ich denke, das ist ein riesiger Overkill, und es sollte ein einfacheres oder eleganteres Argument geben, Binär als minimales Alphabet zu verwenden, das jede Form von Informationen ausdrücken kann (a Tatsache, die zudem in jedem Standard-Lehrbuch selbstverständlich ist). Ich teile nicht die Ansicht, dass Binär nur eine technische Entscheidung ist: Es gibt eine minimalistische Grundlage, die dies rechtfertigt.
Das Problem bei unären Schemata besteht darin, dass sie die Anzahl unterschiedlicher Signale unter dem kartesischen Produkt nicht erhöhen. Das Fingerzählen entspricht natürlich dem Nebenprodukt, das verschiedene Alternativen aggregiert, also ist es Betrug, sie in einem einzigen Alphabet zu zählen; ähnliche Bemerkungen gelten für EOF, die lediglich durch die Position angeben, zu welchem ​​Element eines zählbaren Koppelprodukts ein Element gehört. Wenn wir also eine einfache Theorie der Kombinatorik gewähren, reicht die einfache Antwort "mindestens zwei Symbole". (Und wenn Sie keine Theorie der Kombinatorik haben, können Sie nichts schlussfolgern.)
Wenn Sie ein Argument nur mit Kombinatorik vorbringen können, um die Minimalität des binären Alphabets zu rechtfertigen, und auch erklären können, warum dies für die naive Intuition des Fingerzählens (oder eines anderen unären Schemas) fehlschlägt, ohne Ihren "mathematischen Werkzeugkasten" zu erweitern, dann sollten Sie es posten als Antwort, weil das die Hauptfrage (a) ist, auf die ich hierher gekommen bin, um nach einer Antwort zu suchen.

Antworten (3)

Zusammenfassung

Informationen unterscheiden zwischen mehreren Sachverhalten ; was zumindest auf eine Voreingenommenheit in der Wahrscheinlichkeit hinweist, dass ein bestimmter Sachverhalt verwirklicht wird, und idealerweise darauf hinweist, dass ein einzelner Sachverhalt verwirklicht wird, während eine Reihe von Alternativen dies nicht getan hat.

Um eine Informationseinheit zu haben, müssen Sie mindestens zwei mögliche Sachverhalte haben. Herkömmlicherweise könnten wir diese Sachverhalte als den Wahrheitswert eines logischen Satzes beschreiben: Wir haben entweder A oder Nicht-A . Solche binären Unterscheidungen sind die gröbsten und elementarsten Methoden zur Unterscheidung von Sachverhalten in der klassischen (und verwandten Formen der Booleschen) Logik. Jede Informationstheorie, die sich aus einer solchen Logik ergibt, wird zwangsläufig dazu tendieren, zweiwertige Wahlmöglichkeiten – dh  ein bisschen – als Informationseinheit anzugeben.

Kombinatorik und die Notwendigkeit von Alphabeten der Größe > 1

Wir können die Probleme betrachten, etwas Minimaleres zu erhalten, insbesondere einen unären Ansatz, der ein Ein-Buchstaben-Alphabet beinhaltet (aber wo wir Wörter unterschiedlicher Länge haben), indem wir ernsthaft überlegen, welche kombinatorische Maschinerie erforderlich ist, um mehr als eine Möglichkeit herauszuholen ein unäres Gerüst. In den Kommentaren schlagen Sie eine Einstellung vor, in der es Nachrichten gibt, die aus einem einzelnen Buchstaben bestehen, möglicherweise ergänzt durch ein einmaliges "Dateiende"-Zeichen. Lassen Sie mich diese beiden Buchstaben mit '1' und 'E' bezeichnen.

In der Multiletter-Einstellung wollen wir immer noch mehr als eine endliche Anzahl von Signalen ausdrücken, obwohl wir ein Alphabet von endlicher Größe haben. (Versuche, unendliche Alphabete zu verwenden, führen zu Genauigkeitsproblemen, bei denen wir irgendwie die Unterscheidbarkeit von zwei „Buchstaben“ bestätigen müssen. Dies ist ein Bootstrapping-Problem ohne offensichtliche Lösung. Also beschränken wir uns auf endliche Alphabete.) So wie wir Der Umgang damit besteht darin, verschiedene Sachverhalte mit Folgen von Charakteren mit unterschiedlichen Sachverhalten zu assoziieren. Das Spiel „zwanzig Fragen“ ist ein gutes Beispiel dafür (allerdings in einem interaktiven Setting), wo man versucht, durch eine Folge von Ja/Nein-Fragen fester Länge auf die Identität eines Objekts zu schließen.

Wir können also ein Alphabet T beliebiger Größe simulieren, indem wir einfach eine ausreichend große Anzahl von Zeichen aus einem kleineren Alphabet Σ verwenden . Wenn Sie jedoch keinen festen Code verwenden, bei dem Sie anhand der ersten n Zeichen sicher sein können, ob Sie ein n + 1. Zeichen erwarten, um die Nachricht zu vervollständigen, müssen Sie Zeichenfolgen mit fester Länge verwenden.

Wir können Zeichenfolgen fester Länge durch das n - fache (kartesische) Produkt des Alphabets mit sich selbst, Σ n , modellieren . Das Problem mit einem unären Alphabet Σ  = {1} ist, dass Σ n die gleiche Größe hat wie Σ selbst, was den Zweck verfehlt.

Was hindert uns daran, Zeichenfolgen mit variabler Länge zu berücksichtigen? Wenn wir Alphabete mit mehreren Buchstaben haben, überhaupt nichts; aber wir müssen uns darüber im Klaren sein, wie wir die Länge der Zeichenfolge beschreiben – die, ob Metadaten oder nicht, immer noch Informationen sind; es definiert, wie wir das Signal interpretieren sollen. Auf einer Festplatte zum Beispiel bedeutet ein Dateiendezeichen E nicht wirklich, dass der Platte keinerlei Informationen folgen; nur dass die folgenden Daten für die übermittelten Informationen irrelevant sind (z. B. durch die spezifische Datei, auf die verwiesen wird).

Mathematisch können wir Dateien mit einer Länge von 0 bis n beschreiben, indem wir eines der Zeichen E verwenden, um „Ende der Nachricht“ anzuzeigen, was bedeutet, dass zwei Zeichenketten, die diesem Zeichen entsprechen, als gleichwertig anzusehen sind. Wenn wir beispielsweise ein Alphabet Σ  = {1,E} verwenden, würden wir sagen, dass die beiden Zeichenfolgen

111E1111 und 111E1EE1

als gleichwertig, da sie bis zum Zeichen E ganz links übereinstimmen. Wir würden die Äquivalenzklasse, zu der diese beiden Zeichenfolgen gehören, mit 111 abkürzen. Wir benötigen jedoch das zweite Zeichen, um zu definieren, wo der "Informationsgehalt" der Zeichenfolge endet, und damit anzugeben, welche Äquivalenzklasse von Zeichenfolgen wir mit der Nachricht beabsichtigen . Dies würde auch in einem praktischen Kommunikationskontext zutreffen, wo Protokolle eingerichtet werden, um verschiedenen Geräten anzuzeigen, wenn sie tatsächlich nicht mehr mit einem entfernten Gerät kommunizieren (anstatt zufälliges Rauschen als Daten zu interpretieren).

Natürlich beschreiben wir Zeichenfolgen unterschiedlicher Länge normalerweise nicht in Form von Äquivalenzklassen von Zeichenfolgen beliebiger endlicher oder unendlicher Länge. Dies ist jedoch eine Bequemlichkeit; in der alltäglichen Praxis, in der Mathematik wie in der normalen Prosa, haben wir Sequenzende-Markierungen, wenn auch nur in Form von Leerzeichen und Satzzeichen, die selbst ein unterscheidbares Signal von jeder Markierung wie 0 oder 1 sind; Wenn ich 11 und 101 schreibe, wissen Sie, dass dies Zeichenfolgen der Länge 2 bzw. 3 sind, da eine Zeichenfolge mit einem Leerzeichen und eine andere mit einem Komma abgeschlossen wird. Sie verwechseln sie nicht mit den Saiten „ 11 an... “ oder „ 101, you kn…", weil die Konventionen unserer geschriebenen Sprache diese als potenzielle Sequenzende-Markierungen für Wörter oder Zeichenfolgen im Allgemeinen festlegen. Das heißt, sie übermitteln diese Informationen. Ohne sie auf diese Weise zu interpretieren, hätten Sie keine Ahnung, wann ein Wort ist oder ein Satz endete, und somit kein Ort, um die Komplexität der Botschaft, die ich Ihnen sende, zu begrenzen.

Jemand, der darauf besteht (ich würde sagen naiv), dass er unäre Sequenzen beliebiger Länge „intuitiv“ unterscheiden kann und somit unterschiedliche Botschaften mit den Zeichenfolgen 1, 11, 111, 1111, 11111 usw. kommunizieren kann, würde ich sagen, dass dies wieder hinfällig ist zum gleichen Problem wie ein unendlich langes Alphabet; Metadaten werden entscheidend für das Problem der Unterscheidung möglicher Signale, und daher codieren die Metadaten letztendlich die Nachricht – dh die Metadaten sind die Daten selbst. Ich glaube nicht, dass es möglich ist, den Unterschied zwischen zwei Nachrichten 111...1, die sich über 1000 Zeichen fortsetzen, von einer von 1001 Zeichen sofort zu erfassen; die Darstellung selbst muss Hinweise darauf enthalten, wo die Nachricht beginnt und endet, wenn auch nur in Form von Leerzeichen eines ruhenden Grundliniensignals anstelle eines offenen Signals. Die Unterscheidung, ob die Nachricht geendet hat oder nicht, wird entscheidend, um zu bestimmen, wo die Nachricht geendet hat.

Die Unterteilung von Zeichen in „Daten“ und „Metadaten“ ist eine Unterteilung, die wir praktisch in Bezug auf Nachrichten selbst vornehmen. Metadaten kommunizieren jedoch immer noch Sachverhalte, die sich für die korrekte Interpretation der gesendeten Nachricht als wesentlich erweisen können. Beispielsweise zeigt ein Dateiendezeichen den Stand der Dinge an " es gibt keine Zeichen mehr, die in der Nachricht eine Rolle spielen ", während jedes Zeichen, das (in oder außerhalb des Kontexts) kein Dateiende anzeigt für Nachrichten von unbestimmter Länge gibt an, dass mehr Zeichen für die Begriffsklärung erforderlich sind". Wenn die Rolle von Informationen grundsätzlich darin besteht, Sachverhalte zu disambiguieren, dann ist unsere eigene Einteilung von Sachverhalten in "diejenigen, die die Nachricht selbst betreffen" und "diejenigen, die nicht die Nachricht selbst betreffen", nebensächlich, so nützlich sie auch sein mag Wenn die Nachricht von ungewisser Länge ist, ist es notwendig, ein Mittel zu haben, um mitzuteilen, wie lang die Nachricht tatsächlich ist, und dies ist mit einem Ein-Buchstaben-Alphabet unmöglich, das – weil es nur kann eine Nachricht beliebiger fester Länge übermitteln – kann nicht in beliebig vielen Zeichen zwischen zwei Sachverhalten unterscheiden.

[Bearbeitet, um Bemerkungen zu Kombinatorik, unären Schemata hinzuzufügen]

"Um eine Informationseinheit zu haben, müssen Sie mindestens zwei mögliche Sachverhalte haben". Ich möchte darauf nicht bestehen, aber die Wiederholung eines einzigen Sachverhalts (eines unären Schemas) scheint intuitiv genug, um ein minimalistischeres Mittel zum Ausdrücken von Informationen zu sein. Ich fürchte, Sie wiederholen also die übliche Haltung, dies für zu offensichtlich zu halten, um eine Rechtfertigung zu erfordern.
@mono: Ich sehe nicht, wo Sie hier das Problem finden - es scheint mir ein grundlegender Punkt zu sein, aber mir fehlt möglicherweise etwas. Können Sie Ihr „ unäres Schema , das ein minimalistischeres Mittel zum Ausdrücken von Informationen ist“ beschreiben?
@mono: Ich habe meine Antwort ausgearbeitet. ( Anmerkung : Ich beziehe mich nicht ausdrücklich auf Nebenprodukte, denn obwohl ich glaube, dass dies die angemessene Art ist, die Auswahl zwischen einem oder mehreren unterscheidbaren Elementen zu beschreiben, ist es strittig, wenn das Problem darin besteht, Wege zu finden, die Elemente überhaupt zu unterscheiden. )
@NieldeBeaudrap: Ich danke dir für die Ausarbeitung. Das ist die Art von Antwort, nach der ich gesucht habe. Besonders wertvoll finde ich den letzten Satz - wenn die Länge einer Nachricht ungewiss ist, muss jede Nachricht neben ihrer selbst gegebenen Länge, die trivialerweise als empfangen erkennbar ist, ein zusätzliches Unterscheidungsmerkmal enthalten, das diese Länge explizit angibt. Und eine unäre Nachricht kann nur ihre intrinsische Länge signalisieren, nicht was diese Länge zusätzlich dazu ist. Dazu ist ein Marker erforderlich, also zumindest ein binäres Alphabet (und die Wahl des Alphabets ist durch Minimalismus gerechtfertigt).
Sie könnten auch argumentieren, dass das unäre Schema ohne ein zweites Symbol nur Zeichenfolgen erzeugen kann, die - als Präfixe aller größeren zulässigen - mehrdeutig bleiben, bis die maximal zulässige Länge einer Nachricht erreicht ist (dh der Satz von zehn Fingern in einer Hand). ). Diese Zeichenfolge mit maximaler Länge ist nicht mehrdeutig, aber sie ist die einzige eindeutige Nachricht, die jemals in dem Schema codiert werden kann; und wenn es keine maximale Länge gibt (dh einen klassischen Kommunikationskanal), dann ist jede endliche Nachricht mehrdeutig. Ich muss zugeben, dass dieses Argument nicht so prägnant ist, wie ich es ursprünglich bevorzugt hätte, aber es reicht aus.
@Mono: Ich wünschte, ich könnte die Antwort prägnanter machen, aber wenn Sie die Zusammenfassung angesichts der Idee der unären Schemata nicht überzeugend finden, ist die Ausarbeitung notwendig, um nach Hause zu fahren, wie unäre Schemata Sachverhalte selbst unter Verkettung überhaupt nicht unterscheiden können , weil ein zweites Zeichen benötigt wird, um überhaupt kommunizieren zu können, wo die Nachricht endet.

Ich denke, Sie haben Recht, dass Berechnungen nicht grundlegend sind, aber für mich besteht der Sinn der Verwendung von Berechnungen darin, dass Sie mit universellen Berechnungen alles berechnen können, einschließlich aller gewünschten Informationsmetriken. Daher bedeutet das Messen von Informationen in Form von Berechnungen lediglich, sich unendliche Ausdrucksmöglichkeiten zunutze zu machen. Es ist keine Aussage, dass die Berechnung hier das Wichtigste ist, sondern nur, dass Sie damit machen können, was Sie wollen.

Auch konstante Faktoren spielen eine große Rolle. Wenn ich eine Programmiersprache erfinde, die den vorherigen Absatz als Symbol ☆ enthält, dann gibt es nur einen konstanten Unterschied in der Programmlänge, um den obigen Absatz auszudrücken (etwa 440x), und dennoch habe ich es völlig versäumt, die Intuition über Informationen zu erfassen, die Kolmogorov wurde vermutlich angestrebt. Wenn Sie sich nicht selbst die Beschränkung auf die Verwendung kompakter Allzweck-Computergeräte auferlegen, liefern die Kolmogorov-Informationsmaßnahmen unsinnige Ergebnisse. Dies verdeutlicht auch, dass Berechnungen nicht das Fundament von Informationen sind. Vielmehr ist es ein Werkzeug (das entsprechend eingesetzt werden muss) zur Analyse.

Allerdings glaube ich nicht, dass Sie "beweisen" können, dass das Bit die grundlegende Informationseinheit ist. Sie können sicherlich eine Reihe von Axiomen übernehmen, die etwas logisch Äquivalentes zu "das Bit ist die grundlegende Informationseinheit" enthalten. Die meisten Texte über Shannon-Informationen tun genau dies (indem sie beweisen, dass die Shannon-Informationen von -p log pdie richtige sind , und die rechnerisch trivialste Darstellung* mit log= ist log2). Aber wenn Sie auf einer tieferen Ebene fragen, glaube ich nicht, dass Sie zeigen können, dass das Bit aus biologischer Sicht eher grundlegend als das Aktionspotential (oder die synaptische Freisetzung) ist; oder als die Standardabweichung(oder Konfidenzintervall) aus analoger statistischer Sicht. Auf einer gewissen Ebene sind sie alle gleichwertig (aber Sie müssen ziemlich hart graben, um voneinander zu kommen), und welche Sie bevorzugen, hängt von Ihrer Perspektive ab.

† Aus einem sehr guten Grund, wie Ihnen jedes einführende Lehrbuch beweisen wird.

* Nicht aus einem wirklich guten Grund, außer dass zwei Zustände die minimal mögliche Anzahl sind, und es passiert einfach so, dass sich die Physik verschworen hat, Geräte mit zwei Zuständen einfacher zu bauen als andere, und deshalb sind unsere Computer binär.

Ihre Antwort ist bisher die einzige, die auf meine Frage eingeht. Einerseits weisen Sie auf einen anderen (vielleicht fundamentaleren) Grund hin, warum die Berechnung kein "in sich geschlossenes Primitiv" zu sein scheint, über das Informationen definiert werden sollten; Ich habe mich auf die obligatorische Bezugnahme auf Inputs-Outputs außerhalb des Begriffs der Berechnung konzentriert, und Sie haben auf die mit der Kolmogorov-Definition verbundene Relativität hingewiesen (Ursache der Größe des konstanten Terms, die nur vernachlässigbar wird, wenn sehr lange Sequenzen beschrieben werden, analog zu die statistische Grenze der Quellencodierung in der Shannon-Theorie).
Andererseits, und weil der Begriff der Berechnung eine gewisse „Interaktion“ (dh Verarbeitung) von rohen Zeichenketten beinhaltet, ziehe ich es vor, den Begriff Komplexität für diese Metriken zu verwenden und „Informationen“ für allgemeine Zeichenketten, dh Folgen, zu reservieren von Symbolen "wie gegeben". In diesem Sinne wollte ich ein prägnantes Argument (aber halbformal oder zumindest nicht rein heuristisch) für die Idee haben, dass zwei Symbole die minimale Menge unterschiedlicher Werte sind, die ausreichen, um Informationen auszudrücken. Ich habe kein Buch über Informationstheorie gelesen, in dem dieses Thema einen reservierten Platz verdient hätte; es wird nur "angenommen".
@Mono - Suchen Sie nach etwas Ausführlicherem, als wenn Sie nur eine Sache haben, gibt es keine Unterscheidungen und keine Informationen; Das Mindeste, was Sie dem Bild hinzufügen können, ist eine weitere Sache, die Ihnen eine Unterscheidung und die Möglichkeit zur Information gibt .
Ich würde mich sehr freuen, wenn Sie die Literatur zitieren könnten, in der festgestellt wird, dass "die rechnerisch trivialste Darstellung mit log = log2 ist". Es ist sicherlich ein "triviales Problem" für jemanden, der auf dem Gebiet eingeweiht ist, aber nicht so trivial, wenn man es jemand anderem erklärt. Ich wurde von Leuten gefragt, "warum nicht unär, wenn man bedenkt, dass wir mit den Fingern zählen", und in diesen Fällen musste ich auf die Notwendigkeit von Markierungen am Ende jeder Zeichenfolge hinweisen , was in einem Alphabet mit einem einzigen Symbol unmöglich ist, aber das Ganze Streit schien immer ein Overkill zu sein.
Genau, aber nicht zu heuristisch. Ich möchte in der Lage sein, alle anderen scheinbar "einfacheren" Schemata auszuschließen (ich kann nur an unäre denken, aber vielleicht gibt es da draußen etwas anderes), ohne auf einen Overkill zurückzugreifen, wie das Zitieren der Codierungstheorie (was ich gewesen bin). Antworten auf die Frage nach dem Fingerzählen).
@Mono - Ich spreche nicht von zwei Symbolen, sondern vom gesamten Zustandsraum . Sie können mit einer Sache nicht unär kodieren; es gibt nur dieses eine Ding und das ist es. Bei einem Zustandsraum von zwei können Sie entweder den einen oder den anderen Zustand haben. Dies ist der kleinstmögliche nicht entartete Zustandsraum. Daher auch binär: Sie können Ihre Zustände darstellen. Es gibt keinen wirklich guten Grund, binär zu wählen, da eine H = -C * sum_i(- p_i log p_i)Änderung der Basis von lognur die Konstante ändert. Es ist insofern "am einfachsten", als ein Zustandsraum von zwei der einfachste möglich ist, und Sie können wählen, ob Sie daraus bauen möchten.
Ich weiß nicht genau, was Sie mit "Zustandsraum" meinen. Ich kann nur thermodynamische makroskopische Gleichgewichtsdiagramme und den p vs. x-Phasenraum in der statistischen Mechanik hervorrufen (vielleicht, weil ich akademisch von dort komme). Wenn Sie in Ihrer Antwort näher darauf eingehen könnten, wäre es interessant zu lesen, auch wenn ich nicht sicher bin, ob dies als nicht übertriebene Erklärung gelten würde.
@Mono: Lassen Sie uns alle möglichen Sachverhalte auflisten: {0}. Nun, das ist langweilig, nicht wahr? Versuchen wir es noch einmal: {0, 1}. Hey, jetzt können wir Informationen haben – welche von zwei Möglichkeiten ist das? Das ist alles, was ich zu sagen versuche. Es ist nicht sehr tiefgründig, weshalb ich glaube, dass es kein starkes Argument für Binär gibt. Wenn Tristabilität wirklich üblich wäre und Bistabilität nicht, dann würden wir die Basis 3 verwenden, wobei Bistabilität ein entarteter Fall von Tristabilität ist.

Ich glaube nicht, dass das Bit die grundlegende Informationseinheit ist. Es ist aus einer bestimmten Perspektive, aber andere könnten gewählt werden.

Die Begründung in Kürze lautet wie folgt:

a. Welches Wissen wir haben, lässt sich mathematisch kodifizieren

b. Mathematik kann immer als Zahlen kodiert werden

c. Die einfachste Darstellung in einem Zahlensystem ist die Basis 2

Schritt a) ist, wo Wissen im Gegensatz zu Information üblicherweise herunterfällt, worauf Sie hinweisen, indem Sie den Unterschied zwischen Information und „Semantik“ zugeben. Das Bit ist einfach eine gute technische Wahl - das soll seine Bedeutung nicht schmälern. Wenn gesagt wird, dass das Bit grundlegend ist, sollte der Kontext erhalten bleiben, und dies ist der rechnerische und technische Kontext.

Schrift ist eine Form der Information, gäbe es keine wirkliche Person, die sie verstehen könnte, wäre sie lediglich eine Folge von geometrischen Formen, die durch Leerzeichen getrennt sind.

Sie haben recht damit, Informationen (wie in Bits) zu verwechseln, das heißt c) für Wissen, das a) die Welt auf den Kopf stellt. Aber natürlich können Bits selbst zu einer neuen Wissensquelle werden. Die Situation ist also subtiler, als ich beschrieben habe.

Welche andere Grundlage für die Definition von Informationen würden Sie wählen? Gibt es eine Möglichkeit, eine Informationseinheit zu erhalten, die nicht auf eine Ja/Nein-Unterscheidung hinausläuft?
@deBeaudrap: Warum muss man einkochen? Ich weiß, warum es getan wird, die Tugenden sind pragmatisch; aber das macht diese Darstellung von Informationen nicht grundlegend . Zum Beispiel arbeiten Turing-Maschinen mit einem unendlichen Streifen, der durch Einsen und Nullen gekennzeichnet ist, aber man kann tatsächlich andere Alphabete verwenden.
@Ullah: Im Kontext der Frage bedeutet "fundamental" laut OP "nichts Einfacheres oder Geringeres" als Informationseinheit. Nicht einfacher zu handhaben, aber minimal.
@DeBeaudrap: Das ist mir klar. Deshalb sagte ich, die einfachste Darstellung sei in Basis 2. Der Schwerpunkt meiner Antwort lag darauf, warum eine minimale Darstellung „unbefriedigend“ ist und wie „die Welt auf den Kopf stellt“.