Ich bin mir nicht sicher, auf welcher SE-Site ich diese Frage stellen muss. Aber da ich die Shannon-Entropie im Rahmen der statistischen Physik gelernt habe, stelle ich diese Frage hier.
Im Fall der Shannon-Informationstheorie definiert er Information für ein Veranstaltung als,
Basierend auf dieser Definition definieren wir die Shannon-Entropie weiter als durchschnittliche Information,
Meine Frage ist, was ist die Motivation hinter der Definition von Entropie als eine Funktion, die umgekehrt zur Wahrscheinlichkeit in Beziehung steht? Mir wurde von meinem Professor gesagt, dass je geringer die Wahrscheinlichkeit eines Ereignisses ist, desto mehr Informationen es besitzt, obwohl ich von dieser Tatsache immer noch nicht überzeugt bin.
Zweitens, was ist der Grund für die Wahl der logarithmischen Funktion in dieser Definition? Gibt es Orte, an denen diese Definition von Information verwirkt wird?
Dies ist zusätzlich zu meiner Antwort, die an anderer Stelle gepostet wurde , da OP eine allgemeinere Antwort wollte. Dieses Beispiel hat das Wesentliche auf der Grundlage der Idee, wie Informationen kodiert werden können, erfasst – es ist im Geiste ein etwas konstruktives Argument.
Eine andere Art, über die Menge an Informationen nachzudenken, ist wie folgt:
Wenn ein sehr wahrscheinliches Ereignis eintritt, können Sie nicht viele Informationen daraus ziehen. Es würde auf jeden Fall passieren. Wenn andererseits etwas Ungewöhnliches passiert, sollte Ihnen das zu denken geben. Ein solches Ereignis trägt mehr "Informationen". (Zum Beispiel: Das Eintreten eines bestimmten Ereignisses vermittelt keine Information)
Wenn zwei unabhängige Ereignisse eintreten, müssen sich die Informationen, die Sie daraus ziehen, „aufaddieren“. Da sich ihre Wahrscheinlichkeiten multiplizieren, um die Wahrscheinlichkeit des kombinierten Ereignisses zu ergeben, müssen die aus jedem Ereignis gewonnenen Informationen proportional zu sein seiner Wahrscheinlichkeit.
Bei typischen Behandlungen löst man eine Funktionsgleichung für die Abhängigkeit der Entropie von der Wahrscheinlichkeitsverteilung – mit den beiden oben genannten Bedingungen. Letzteres gibt die während erstere die additive Konstante festlegt bis Null. Der Skalierungsfaktor hängt von der Basis ab, zu der man den Logarithmus nimmt.
Shannon führte seine Arbeit im Kontext der Kommunikationstechnik aus – er betrachtete ein Kommunikationssystem, das eine Folge von Symbolen aus irgendeinem Alphabet senden kann Informationen zu kommunizieren. Heutige drahtlose Kommunikationssysteme tun dies durch Modulation von Amplitude/Phase/Frequenz/Code oder einer Kombination der oben genannten. Einen Link zu seiner Originalarbeit, die mit der historischen Begründung für das logarithmische Informationsmaß beginnt, finden Sie hier .
Wenn eine Informationsquelle viel Redundanz aufweist, kann dieselbe Nachricht übermittelt werden, ohne die wörtliche Nachricht von der Quelle zu übertragen. Wenn die Nachricht beispielsweise eine Zeichenfolge wäre, die aus 50 Kopien des Buchstabens „A“ besteht, könnten Sie anstelle von „AAAAAAAAA….“ einfach ein Quellcodierungsschema entwerfen, das „A“ mit einigen Metadaten überträgt, die implizieren, „wiederhole 50 Mal" und der Empfänger rekonstruiert die ursprüngliche Nachricht mit viel weniger Overhead. Übrigens ist Shannons Theorie auch die Grundlage für die heutige Datenkompressionstheorie.
Benutzer10851
Benutzer35952
Karl Witthöft
Benutzer35952
Shiva
Benutzer35952
Shiva
Alexander Nelson
N. Jungfrau