Verständnis der Zufallsvariablendefinition von Markov-Ketten

Update Diese Frage wird in Abschnitt 3.2 dieser Hinweise beantwortet .


Als Wahrscheinlichkeitsanfänger kämpfe ich damit, die Definition einer Markov-Kette als Folge von Zufallsvariablen vollständig zu verstehen.

Betrachten Sie der Einfachheit halber zeitdiskrete, homogene Markov-Ketten mit endlichen Zustandsräumen S wofür wir halten { 1 , , N } . Ich verstehe in diesem Zusammenhang die folgende Definition einer Markov-Kette:

Eine Markov-Kette ist ein Paar ( S , P ) Wo P = ( P ich J ) ist eine Übergangsmatrix .

Mit dieser Definition kann man eine Trajektorie der Markov-Kette erzeugen, die aus einer unendlichen Folge besteht S 0 , S 1 , von Elementen von S durch Initialisierung in einem Zustand S 0 und sich gemäß den Übergangswahrscheinlichkeiten vorwärts entwickeln ( P ich J ) .

So weit so gut – das ist alles ganz intuitiv.

Nehmen wir stattdessen an, dass man eine Markov-Kette als Folge betrachtet X 0 , X 1 , von Zufallsvariablen mit Werten in S mit der Markov-Eigenschaft - gibt es eine Standardzuordnung zwischen diesen Definitionen? Insbesondere da jeder X k ist eine Zufallsvariable, deren Domäne ein Abtastraum ist Ω ;

X k : Ω S ,

und da die Übergangswahrscheinlichkeiten üblicherweise als bedingte Wahrscheinlichkeiten beschrieben werden;

P ich J = P ( X k = ich X k 1 = J ) ,

oder die Transponierung davon abhängig von Ihren Konventionen, vermutlich gibt es einen Sample-Raum Ω und ein Wahrscheinlichkeitsmaß P irgendwo sitzen ?

Eine Vermutung wäre das Ω kann als Menge aller Folgen angenommen werden S 0 , S 1 , von Elementen von S , die Zufallsvariable X k ordnet jede solche Sequenz ihrer zu k T H Element,

X k ( S 0 , S 1 , ) = S k ,

Und P ein beliebiges Wahrscheinlichkeitsmaß für die Menge der Teilmengen von ist Ω die die Markov-Eigenschaft erfüllt.

Ist diese Beschreibung (einer Richtung) der Entsprechung zwischen diesen Markov-Kettendefinitionen korrekt und/oder Standard ?

TL; DR, aber die erste Definition ist eine Definition eines homogenen MC - nicht eines allgemeinen MC. Im Allgemeinen hängt die Übergangsmatrix von ab T und beschreibt X T + 1 | X T = X T + 1 | X T , , X 0 Herstellen einer Eins-zu-Eins-Verbindung zwischen zwei Definitionen.
@AS Danke. Ich werde die Frage aktualisieren, um meinen Missbrauch der Terminologie widerzuspiegeln.

Antworten (1)

Ich bin mir nicht sicher, ob dies Ihre Fragen vollständig beantwortet, und ich bin definitiv kein Experte, aber es ist das Beste, was ich tun konnte. Entschuldigung, es ist ein bisschen lang und mäandrierend, aber ich komme schließlich zu Ihren Fragen.

Ja, hinter einer Zufallsvariablen sitzt immer ein Zustandsraum X , aber wie Sie bemerkt haben, wird es normalerweise unterdrückt, da es in gewissem Sinne die "Welt" und alle möglichen Zustände beschreibt, in denen sich die Welt befinden könnte, und daher viel zu kompliziert ist , um direkt damit umzugehen.

Unser Ziel bei der Definition einer Zufallsvariablen X : Ω R ist in einem sehr realen Sinne, unser Modell der "Welt" zu vereinfachen, indem wir viele Zustände auf dasselbe Ergebnis abbilden. Zum Beispiel wenn X Ist 0 oder 1 Je nachdem, ob mein Münzwurf Kopf oder Zahl ist, wird dieses Ergebnis vermutlich unabhängig davon sein, ob es morgen regnet oder die politische Dynamik in China usw.

Genauer gesagt, da der Münzwurf eine 50/50-Chance ist und unabhängig davon, ob es morgen regnet oder nicht, bedeutet dies, dass sich die Menge der Staaten, in denen es regnet, gleichmäßig (in Bezug auf das Maß der beiden Überlappungen) mit dem überlappt zwei disjunkte Coin-Flip-Sets, die unseren Zustandsraum unterteilen, außerdem werden die Überlappungen allein durch die Unabhängigkeit so sein, dass die Konditionierung auf Köpfe die Regenwahrscheinlichkeit nicht ändert. Das heißt

P ( Regen ) = P ( Regen Köpfe ) P ( Köpfe )

Somit wird der Zustandsraum mit dieser unvorstellbar komplexen Sammlung von Mengen (messbaren Ereignissen) mit allen möglichen komplizierten Mustern überlappender Symmetrien überlagert.

Zum Glück bei der Vereinfachung unserer Sicht auf die "Welt" über eine Zufallsvariable X : Ω R , R selbst erbt die Eigenschaft, ein Wahrscheinlichkeitsraum zu sein, in dem wir die Wahrscheinlichkeit eines Ereignisses messen E R durch Zurückziehen zurück zu Ω folgendermaßen:

P ( E ) := P ( ω Ω : X ( ω ) E )

Somit können wir nicht nur den ursprünglichen Zustandsraum unterdrücken Ω , aber wir können sogar die ursprüngliche Zufallsvariable unterdrücken, wenn wir wollen, oder anders gesagt, wir könnten eine neue Zufallsvariable definieren Y : R R das ist nur die Identitätsfunktion. Darüber hinaus können wir dieses vererbte Maß unter einigen milden Annahmen als das Lebesgue-Integral einer nicht negativen Funktion schreiben F mit Gesamtmaß 1 , das ist nur unser bekanntes pdf. Deshalb E Y ist nur R j F D μ .

Das Wichtigste für die Leute ist, dass das meiste Modellieren hier beginnt, nicht damit X , aber mit Y . Aus diesem Grund beginnen wir in Anwendungen unser Modell so oft mit der Angabe einer Verteilungs-/Dichtefunktion, die uns etwas sagt P ( E ) direkt, und dann winken wir nur mit den Händen darüber, wie sich dieses "in der Theorie" auf einen a priori konsistenten, aber letztendlich unerkennbaren Zustandsraum zurückzieht Ω .

Daher ist es für Ihre Markov-Kette im endlichen Zustandsraum wichtig, dies zu klären S 0 , S 1 , . . . sind keine Zustände deiner Markov-Kette, sie sind die sich entwickelnden vererbten Wahrscheinlichkeitsmassenfunktionen R . Wo Ihre Übergangsmatrix Ihnen sagt, wie Sie von einem pmf zum nächsten gehen. Natürlich hinter jedem S ich ist eine Zufallsvariable X ich was Wert nimmt N mit Wahrscheinlichkeit S ich N und hat einen zugrunde liegenden Zustandsraum Ω so dass

P ( X ich = N ) := P ( ω Ω : X ( ω ) { S ich N } )

Daher möchte ich klarstellen, dass in der Übergangsmatrix-Markov-Kettenformulierung sowohl der Zustandsraum Ω und die Folge von Zufallsvariablen { X ich } unterdrückt und Sie beobachten stattdessen nur die Entwicklung der Folge der zugehörigen Wahrscheinlichkeitsmassenfunktionen { S ich } die Ihnen die Wahrscheinlichkeit mitteilen, dass sich Ihre Markov-Kette zu einem bestimmten Zeitpunkt in einem bestimmten Zustand / Knoten befindet ich .

Deine zweite Formulierung P ich J = P ( X k = ich X k 1 = J ) ist somit gleichbedeutend mit Setzen S k 1 gleich dem Standardbasisvektor e J und überprüfen Sie dann den Wert bei der ich T H Koordinate des Vektors P T e J ; das wird natürlich gleich sein P ich J .

Als du geschrieben hast X ( S 0 , S 1 , . . . ) Ich denke, woran Sie vielleicht denken, ist die Wahrscheinlichkeit verschiedener Folgen von Zuständen Ihrer Markov-Kette, was etwas anderes ist.

Abschließend wofür Ω Ich würde mir darüber keine Gedanken machen, wenn Sie wirklich wollen, können Sie mit einer endlichen Menge herumspielen Ω und versuchen Sie, einige Mengen auf verschiedene Weise zu überlappen, um zu sehen, wie es beim Konzept der Unabhängigkeit wirklich darum geht, wie sich Mengen in einer Art symmetrischer Kaskadierung überlappen.

Danke, aber ich glaube nicht, dass das die Frage beantwortet. Ich weiß das im praktischen Sinne, wissend Ω ist nicht wichtig, aber ich möchte trotzdem wissen, ob die Art und Weise, wie ich versucht habe, zu konstruieren Ω funktioniert. Ich verstehe, warum man die Bahn der Kette vielleicht als eine Folge von pmfs betrachten möchte, aber ist das unbedingt die Art und Weise, wie es allgemein gesehen wird? Wenn ja, warum wird der Bereich der Zufallsvariablen oft (soweit ich das beurteilen kann) als "Zustandsraum" der Kette bezeichnet? Schließlich habe ich nicht daran gedacht X ( S 0 , S 1 ) B. die Wahrscheinlichkeit verschiedener Folgen von Zuständen, die ich zu machen versuchte
(Forts.) Sinn für eine einfache Art, eine angemessene zu konstruieren Ω indem man sich die Kette als probabilistisches Experiment vorstellt, bei dem man eine Folge von Zuständen (Elemente der Bereiche der Zufallsvariablen) erzeugt, und in diesem Sinne wäre ein Ergebnis des Experiments eine solche Folge, was dazu führt, dass der Probenraum der ist Menge aller solcher Folgen. Stellen Sie sich vor, Sie werfen je nach Ergebnis des letzten Wurfs eine von zwei voreingenommenen Münzen, dann möchte ich versuchen, sie zu nehmen Ω die Menge der unendlichen Folgen von sein H oder T , und dann X k Ist 1 wenn die k th Flip ist Köpfe, und 0 ansonsten.
@joshphysics, es wird wahrscheinlich Zustandsraum genannt, weil Sie es sich als Zustandsraum der Identitäts-Zufallsvariable vorstellen können Y mit dem über die ursprüngliche Zufallsvariable vererbten Wahrscheinlichkeitsmaß X . Oder du könntest einfach anrufen Y X und vergiss das Original X definiert an Ω
Nun, wenn ich es in seiner Übergangsmatrixform betrachte, würde ich sagen, dass es als eine Folge von pmfs betrachtet wird, da dies die Übergangsmatrix tut, sie nimmt ein pmf zu einem anderen pmf.
kannst du dir anschauen ( P N ) ich J für die Wahrscheinlichkeit, dass ein Pfad, der im Zustand beginnt ich wird im Zustand enden J nach N Schritte. Wenn Sie einen Zustandsraum auf der Menge aller Pfade wollen, dann wird das wahrscheinlich so etwas sein ich = 1 Ω ich . Aber ein bestimmter Pfad in diesem Zustandsraum wird nicht die Form haben S 0 , S 1 , . . . es wird eine Folge von Zuständen sein S 0 J 0 , S 1 J 1 , . . .
Ist es nicht auch gültig, sich die Kette als ein dynamisches System vorzustellen, das einen Raum von Zuständen (nicht unbedingt pmfs) mit einer dynamischen Regel untersucht, die probabilistisch ist, sodass der Zustand zu jedem Zeitpunkt durch eine dieser Zeit zugeordnete pmf bestimmt wird? , aber ist es nicht das pmf selbst? Dies (zusätzlich auch meine Eindrücke aus einiger Literatur) ist meine Motivation, den Zustand einer möglichen Trajektorie der Kette zu jedem Zeitpunkt zuordnen zu wollen k mit einem möglichen Wert im Bereich einer Zufallsvariablen.
Wenn ich Sie richtig verstehe, sprechen Sie davon, nur einen bestimmten Pfad der Kette zu betrachten, sodass die Wahrscheinlichkeit des Pfads nur das Produkt jeder Übergangswahrscheinlichkeit für diesen Pfad wäre. Wenn es gibt N Staaten und Sie möchten Längenpfade betrachten N dann nehme ich an, dass der (geerbte) Zustand Raum wäre { 1 , . . . , N } N und die Zufallsvariablen wären N -variate, aber ich werde nicht mehr sagen, weil das jetzt über meine Tiefe hinausgeht.
Nun, vielen Dank für all Ihren Input – sehr geschätzt.
FWIW Ich habe einige Vorlesungsnotizen gefunden, die diese Frage so beantworten, wie ich es mir vorgestellt hatte ( hamilton.ie/ollie/Downloads/ProbMain.pdf ) – siehe Abschnitt 3.1.