Definition von Information in der Informationstheorie

Ich bin mir nicht sicher, auf welcher SE-Site ich diese Frage stellen muss. Aber da ich die Shannon-Entropie im Rahmen der statistischen Physik gelernt habe, stelle ich diese Frage hier.

Im Fall der Shannon-Informationstheorie definiert er Information ICH für ein ich T H Veranstaltung als,

ICH ich = ln P ich ich = 1 , . . . N .

Basierend auf dieser Definition definieren wir die Shannon-Entropie weiter als durchschnittliche Information,

S Shannon = ICH = ich = 1 N P ich Protokoll 2 P ich .

Meine Frage ist, was ist die Motivation hinter der Definition von Entropie als eine Funktion, die umgekehrt zur Wahrscheinlichkeit in Beziehung steht? Mir wurde von meinem Professor gesagt, dass je geringer die Wahrscheinlichkeit eines Ereignisses ist, desto mehr Informationen es besitzt, obwohl ich von dieser Tatsache immer noch nicht überzeugt bin.

Zweitens, was ist der Grund für die Wahl der logarithmischen Funktion in dieser Definition? Gibt es Orte, an denen diese Definition von Information verwirkt wird?

@ChrisWhite: Danke. Bei dieser Frage geht es mehr um die physikalischen Gründe für die mathematische Definition von Informationen in Shannons Theorie. Ich verstehe die Beziehung zwischen diesen beiden Entropien.
Ihr Professor liegt falsch, zumindest auf dem Gebiet der Informationstheorie. Die Wahrscheinlichkeit von 100 '1'en hintereinander ist eher gering, aber es trägt weitaus weniger Informationen als eine Kette von 100 Bits, deren Wert stark umschaltet. In Simon Singhs „The Code Book“ finden Sie einige gute Informationen zur „Laieninterpretation“.
@CarlWitthoft: Was ist dann die Rechtfertigung für diese Definition von Informationen?
Hier eine Antwort von mir. Vielleicht hilft das. physical.stackexchange.com/a/64597/3998
@Siva: Vielen Dank +1, es versucht meine Frage fast zu beantworten, aber das erklärt es nur anhand eines Beispiels. Ich würde mich wirklich freuen, eine allgemeinere Antwort zu hören, ohne mich an ein Beispiel halten zu müssen, um sich selbst zu erklären.
Schauen Sie sich meine Erklärung unten an.
In Betracht ziehen N Ereignisse mit gleicher Wahrscheinlichkeit. Was sind die Informationen? Es wäre ( 1 / N ) ln ( 1 / N ) . Es gibt N Begriffe in der Summe, so wäre es gerecht ln ( N ) . Wenn es, sagen wir, deterministisch wäre – also wussten wir es P J = 1 für einige J , dann wären die Informationen ( 0 + 0 + 0 + + 1 ln ( 1 ) + 0 + + 0 ) = ln ( 1 ) = 0 .
Shannons Originalarbeit ist sehr gut lesbar und gibt eine wirklich hervorragende Antwort auf diese Frage in Abschnitt 6 (der unabhängig vom Rest der Arbeit gelesen werden kann).

Antworten (2)

Dies ist zusätzlich zu meiner Antwort, die an anderer Stelle gepostet wurde , da OP eine allgemeinere Antwort wollte. Dieses Beispiel hat das Wesentliche auf der Grundlage der Idee, wie Informationen kodiert werden können, erfasst – es ist im Geiste ein etwas konstruktives Argument.

Eine andere Art, über die Menge an Informationen nachzudenken, ist wie folgt:

  • Wenn ein sehr wahrscheinliches Ereignis eintritt, können Sie nicht viele Informationen daraus ziehen. Es würde auf jeden Fall passieren. Wenn andererseits etwas Ungewöhnliches passiert, sollte Ihnen das zu denken geben. Ein solches Ereignis trägt mehr "Informationen". (Zum Beispiel: Das Eintreten eines bestimmten Ereignisses vermittelt keine Information)

  • Wenn zwei unabhängige Ereignisse eintreten, müssen sich die Informationen, die Sie daraus ziehen, „aufaddieren“. Da sich ihre Wahrscheinlichkeiten multiplizieren, um die Wahrscheinlichkeit des kombinierten Ereignisses zu ergeben, müssen die aus jedem Ereignis gewonnenen Informationen proportional zu sein Protokoll seiner Wahrscheinlichkeit.

Bei typischen Behandlungen löst man eine Funktionsgleichung für die Abhängigkeit der Entropie von der Wahrscheinlichkeitsverteilung – mit den beiden oben genannten Bedingungen. Letzteres gibt die A Protokoll [ ] + B während erstere die additive Konstante festlegt B bis Null. Der Skalierungsfaktor A hängt von der Basis ab, zu der man den Logarithmus nimmt.

+1, besonders für den zweiten Punkt !! Danke. Werde aber noch etwas Zeit für die Analyse brauchen
Können Sie einen Fall oder ein Beispiel dafür geben, wie man eine Funktionsgleichung für die Abhängigkeit der Entropie von der Wahrscheinlichkeitsverteilung löst?

Shannon führte seine Arbeit im Kontext der Kommunikationstechnik aus – er betrachtete ein Kommunikationssystem, das eine Folge von Symbolen aus irgendeinem Alphabet senden kann A Informationen zu kommunizieren. Heutige drahtlose Kommunikationssysteme tun dies durch Modulation von Amplitude/Phase/Frequenz/Code oder einer Kombination der oben genannten. Einen Link zu seiner Originalarbeit, die mit der historischen Begründung für das logarithmische Informationsmaß beginnt, finden Sie hier .

Wenn eine Informationsquelle viel Redundanz aufweist, kann dieselbe Nachricht übermittelt werden, ohne die wörtliche Nachricht von der Quelle zu übertragen. Wenn die Nachricht beispielsweise eine Zeichenfolge wäre, die aus 50 Kopien des Buchstabens „A“ besteht, könnten Sie anstelle von „AAAAAAAAA….“ einfach ein Quellcodierungsschema entwerfen, das „A“ mit einigen Metadaten überträgt, die implizieren, „wiederhole 50 Mal" und der Empfänger rekonstruiert die ursprüngliche Nachricht mit viel weniger Overhead. Übrigens ist Shannons Theorie auch die Grundlage für die heutige Datenkompressionstheorie.