Schätzen der Standardabweichung der Grundgesamtheit mit der Standardabweichung der Stichprobe

Um 4:30 dieses Videos beschloss der Autor, die Standardabweichung der Grundgesamtheit mit der Stichproben-Standardabweichung zu schätzen (Stichprobengröße war 100 ).

Im nächsten Video erwähnte der Autor, dass es vernünftig sei, weil die Stichprobengröße größer als sei 30 . Nun, was sagt uns, dass wir die Standardabweichung auf diese Weise schätzen könnten? Warum ist 30 diese magische Grenze? Hat es etwas mit dem zentralen Grenzwertsatz zu tun? (Ich denke nicht, weil wir die Standardabweichung des Mittelwerts nicht berechnen, also in keiner Weise damit zusammenhängt).

Der Schlüssel liegt in der Voreingenommenheit des Schätzers. Je nachdem, welchen Prozentsatz Sie akzeptieren, ändert er sich. Wenn Sie in einem medizinischen Bereich gearbeitet haben, in dem Sie mit einem Vertrauensniveau von arbeiten 99,9 % , 30 wären eindeutig zu wenige Fälle. Wenn Sie mit den Konfidenzniveaus in Ordnung sind 95 % , das ist viel akzeptabler. Ich kann mich nicht erinnern, wie man die Vorspannung berechnet, aber ich wette, wenn Sie es klären, werden Sie feststellen, dass es Ihre Frage beantwortet (höchstwahrscheinlich wird es eine Vorspannung von ungefähr geben 5 % )

Antworten (2)

Im Grunde scheint die Frage hier zu sein, ob die z-Statistik oder die t-Statistik verwendet werden soll, um ein Konfidenzintervall für den Mittelwert der Grundgesamtheit zu finden μ oder beim Testen einer Hypothese über μ .

Vermuten X 1 , X 2 , , X N ist eine Zufallsstichprobe aus einer Normalbevölkerung, von der sowohl der Mittelwert μ und die Standardabweichung σ sind unbekannt. Wir möchten ein 95%-Konfidenzintervall (KI) finden für μ .

Wenn wir wüssten σ Dann

Z = X ¯ μ σ / N N Ö R M ( 0 , 1 ) .
Daher
P { 1 / 96 X ¯ μ σ / N 1,96 } = 0,95 ,
in welchem μ lässt sich in wenigen algebraischen Schritten isolieren
P { X ¯ 1,96 σ / N μ X ¯ + 1,96 σ / N } = 0,95.
Und so sagen wir, dass ein 95% CI für μ Ist X ¯ ± 1,96 σ / N , in denen alle Mengen X ¯ , σ , Und N sind bekannt. Die Zahlen ± 1,96 werden ausgewählt, weil sie 2,5 % Wahrscheinlichkeit von den oberen und unteren Enden der Standardnormalverteilung abschneiden und 95 % in der Mitte lassen.

Falls σ unbekannt ist, ist es zweckmäßig, die Standardabweichung der Stichprobe zu verwenden S stattdessen behaupten X ¯ ± 1,96 S / N oder vielleicht X ¯ ± 2 S / N , ist ein ungefähres 95 %-KI für μ . Wenn N 30 , Diese Annäherung ist ziemlich gut, aus Gründen, die wir gleich unten sehen.

Wenn σ ist nicht bekannt, die genaue Verteilung ist

T = X ¯ μ S / N T ( N 1 ) ,
Studentische t-Verteilung mit N 1 Freiheitsgrade. Dann ein exaktes 95 % KI für μ Ist X ¯ ± T S / N , Wo T schneidet 2,5% der Wahrscheinlichkeit vom oberen Ende ab T ( N 1 ) und aufgrund der Symmetrie T schneidet 2,5% vom unteren Schwanz ab. Wenn wir uns Tabellen der t-Verteilung ansehen, sehen wir das für N 30 (oder N 1 29 ), T beträgt etwa 2,0. Das Näherungsverfahren mit der Standardnormalverteilung und das exakte Verfahren mit der Student'schen t-Verteilung laufen also in etwa auf dasselbe hinaus.

Für kleinere Werte von N , die Werte von T deutlich größer werden. Zum Beispiel wenn N = 10 , wir haben T = 2.262. Dadurch wird das 95 %-KI länger (ungenauer). Sie können sich diesen Genauigkeitsverlust als „Strafe“ für die Schätzung vorstellen σ von S anstatt den genauen Wert zu kennen σ .

Es gibt ein paar gute Gründe, die „Rule of 30“ ganz zu vergessen:

Erstens „funktioniert“ es nur für 95 % CIs. Für ein KI von 99 % müssen wir 0,5 % der Wahrscheinlichkeit von jedem Rand abschneiden: der normale Grenzwert ist z = 2.576 und wir müssen die Stichprobengröße auf etwa erhöhen N = 60 Vor T 2.6.

Zweitens kennen wir bei der Verwendung von Statistiksoftware entweder den genauen Wert von σ oder das Programm wird es aus den Daten wie annähern S . Von Anfang an müssen wir wissen, ob wir ein z-Intervall oder ein t-Intervall machen. Die Verwendung einer unnötigen Regel zur Stichprobengröße verwirrt das Problem nur. Die richtige Regel lautet: Verwenden Sie z-Prozeduren ist σ ist bekannt (und ist es normalerweise nicht in der Praxis); Verwenden Sie t-Prozeduren von not.

Drittens versuchen einige Autoren von Grundschulbüchern, die „30er-Regel“ (ohne theoretische Begründung) für verschiedene Arten von Begrenzungsverfahren, die Anwendbarkeit des zentralen Grenzwertsatzes, die sichere Verwendung von t-Verfahren für nichtnormale Daten und so weiter zu verwenden An. Bei diesen Anwendungen ist 30 selten eine geeignete Trennlinie.

Hervorragende Antwort! In den Klassen habe ich die 95 %-KI vs. 99 %-KI-Stichprobengrößenüberlegung vermisst. Es macht jetzt absolut Sinn.
Fantastische Erklärung! Ich frage mich nur, wie ich damit umgehen soll X eine diskrete Zufallsvariable in Kombination mit einer geringen Stichprobengröße ist . Verwenden der Standardabweichung der Stichprobe S als Schätzer für σ scheint nicht richtig zu sein; Angenommen, meine Zufallsvariable hat zwei mögliche Ergebnisse: 0 oder 1, mit P [ X = 0 ] = P [ X = 1 ] = 0,5 . Wenn ich nur zwei Proben nehme, kann es sehr gut herauskommen X 0 = X 1 = 1 und das wird dazu führen S = 0 . Das bedeutet, wenn Sie Ihre obige Gleichung verwenden, dass das 99 % CI (oder sogar das 99,999 % CI) sein wird [ 1 , 1 ] Weil S = 0 . Wie soll ich schätzen σ stattdessen?
@rem: Diese t- und z-Methoden gelten sicherlich nicht für Ihr spezifisches Beispiel. // Meine Erklärung bezieht sich auf eine Stichprobe aus einer normalen Population. Wenn das dist'n der X ich ist diskret, und N groß genug ist, dass X ¯ ungefähr normal ist, könnten einige Autoren vorschlagen, z- oder t-Methoden als Näherungswerte zu verwenden. // Wenn die Art der diskreten Dist'n bekannt ist (z. B. Binomial, Poisson usw.), würde ich nach einer genauen Methode suchen, die auf dieser Art der Verteilung basiert.

Keine der beiden Methoden zum Schätzen der Standardabweichung der Grundgesamtheit von der Stichprobe ergibt jedoch eine unverzerrte Schätzung 1 N 1 Methode erzeugt eine unverzerrte Schätzung der Varianz.

Wenn Sie die beiden Schätzungen der Varianz vergleichen

S S 2 = ich N ( X ich X ¯ ) 2 N 1
mit
S P 2 = ich N ( X ich X ¯ ) 2 N
dann klar S P 2 S S 2 = N 1 N und so
S P S S = 1 1 N 1 1 2 N
was näher kommt 1 als N steigt (z N = 30 es geht um 0,983 und für N = 100 um 0,995 ) und dieser Faktor ist weniger wichtig als die Unsicherheit bei der Schätzung der Populationsstandardabweichung von einer Zufallsstichprobe.

Außerdem: Obwohl Stichprobenvarianz S 2 berechnet mit N 1 ist unvoreingenommen für σ 2 , Unvoreingenommenheit „überlebt“ nichtlineare Transformationen nicht. Für normale Daten E ( S ) = [ 2 / ( N 1 ) Γ ( N / 2 ) / Γ ( ( N 1 ) / 2 ) ] σ . Also für eine normale Stichprobengröße N = 5 , wir haben E ( S ) .94 σ . Der Koeffizient in [ ]s konvergiert mit zunehmendem Wert gegen 1 N . Siehe Wikipedia unter „Unvoreingenommene Schätzung der Standardabweichung“.