Was bedeutet es statistisch gesehen, dass es signifikante Unterschiede in den durchschnittlichen IQ-Werten zwischen Rassengruppen gibt?

Charles Murray (in seinem Buch „The Bell Curve“) berichtete, dass es echte Unterschiede zwischen den mittleren IQ-Werten verschiedener Rassen gibt. Er weist auch darauf hin, dass die IQ-Variation innerhalb dieser Gruppen größer ist als die Variation zwischen den Gruppen. Ich habe Mühe, diese beiden Aussagen in Einklang zu bringen.

Wenn er mit „realen Unterschieden“ statistisch signifikante Unterschiede zwischen den Gruppendurchschnitten meint – bedeutet das nicht, dass die Unterschiede zwischen den Gruppen größer sind als innerhalb von ihnen?

Das heißt, basiert der statistische Test für mittlere Differenzen zwischen den Gruppen (z. B. ANOVA) nicht auf einem Vergleich der Varianzen innerhalb vs. zwischen den Gruppen? – (Wenn die Varianz zwischen den Gruppen vergleichsweise groß genug ist, stellt dies eine statistische Signifikanz dar Unterschied zwischen den Gruppen?) Wenn nein, was bedeutet es dann zu sagen, dass sich die Gruppen signifikant voneinander unterscheiden?

Antworten (1)

Die statistische Signifikanz in diesem Zusammenhang wird bestimmt durch:

  • die zugrunde liegende Größe der Gruppenunterschiede,
  • die Gruppenstichprobengrößen und
  • Ihre Schwelle für statistische Signifikanz (traditionell 0,05).

Selbst wenn es sehr kleine Gruppenunterschiede gäbe, würden Sie bei einer großen Stichprobengröße (z. B. 1000 von Menschen aus jeder Rasse, die einen Intelligenztest durchführen) mit hoher Wahrscheinlichkeit (dh hoher statistischer Aussagekraft) einen signifikanten Gruppenunterschied finden.

Allerdings geht es Murray nicht um statistische Signifikanz. Dh es geht nicht darum, die Nullhypothese auszuschließen. Beobachtete Unterschiede in den Ergebnissen von Intelligenztests sind oft ziemlich groß, und dies ist ein intensiv untersuchtes Gebiet mit sehr großen Stichprobenumfängen. Die Entscheidung über unsere Nullhypothese ist also kein Problem. Die Unterschiede in einer bestimmten Studie sind statistisch signifikant.

Murray geht es darum, die quantitativen Unterschiede in den Gruppenmitteln in etwas zu übersetzen, das sprachlich sinnvoll ist. Dazu gibt es verschiedene Möglichkeiten. Bei Variablen, die an sich aussagekräftig sind, sprechen wir oft von den Rohmaßstäben (z. B. könnten Sie über das geschlechtsspezifische Lohngefälle in Dollar sprechen, die pro Jahr verdient werden, oder Sie könnten Rassen in der Größe in Zentimetern oder Zoll vergleichen). In der Psychologie haben wir jedoch oft Skalen, denen die eigentliche Bedeutung fehlt, was zur Verwendung standardisierter Wirkungsmaße führt.

Das gebräuchlichste standardisierte Maß für Gruppenunterschiede wird oft als Cohen's d bezeichnet. Das heißt, es ist die Differenz zwischen Gruppenmittelwerten in Bezug auf die Standardabweichung. So haben beispielsweise IQ-Werte eine Standardabweichung von 15. Wenn also eine Gruppe einen Mittelwert von 110 und eine andere einen Mittelwert von 95 hat, dann ist das ein Cohen-d von 1,0 (dh (110 - 95) / 15 = 1,0). . Basierend auf einer Untersuchung der psychologischen Literatur wurden Faustregeln vorgeschlagen, die darauf hindeuten, dass 0,2 klein, 0,5 mittel und 0,8 in Bezug auf die Wirkung groß ist.

Aus dem Gedächtnis liegen einige beobachtete Unterschiede in den Ergebnissen von Intelligenztests zwischen Rassen im Bereich von 0,8 bis 1,2 (siehe zum Beispiel IQ bekannt und unbekannt ). Nach herkömmlichen Faustregeln für die Effektgröße würde dies also als großer Effekt oder großer Gruppenunterschied bezeichnet werden.

Dies ist jedoch keine Erkenntnis von rein akademischem Interesse. Dieser Befund kann tiefgreifende negative Folgen für das Leben der Menschen haben. Insbesondere besteht die Befürchtung, dass dieser Befund negative Stereotypen verstärkt und dass Menschen in der Gruppe, die bei IQ-Tests tendenziell schlechter abschneidet, weniger Chancen im Leben erhalten (z. B. Bildung, Arbeit, Einwanderung, politische Politik usw.). Und dass der Befund Bigotterie unterstützen würde.

Insbesondere besteht die reale Gefahr, dass Menschen sich auf ein Gruppenstereotyp verlassen, anstatt eine Person nach ihren Verdiensten zu beurteilen. Beispielsweise ist es vernünftig, eine Person für eine Stelle einzustellen, weil sie auf der Grundlage von Kompetenz- und Erfahrungsmessungen die größte Eignung für die Stelle zeigt. Es ist unvernünftig, eine Person einzustellen, weil sie aus einer ethnischen Gruppe stammt, die im Durchschnitt bessere Leistungen bei der Arbeit erbringt.

Murray verwendet einen alternativen Index der Effektgröße, um zu sagen, dass die Varianz zwischen Gruppen geringer ist als die Varianz innerhalb der Gruppe. Wenn Sie also eine Regression mit Gruppe als Prädiktorvariable durchführen, erklärt die Gruppe nur dann mehr Varianz, wenn Sie mehr als 50 % der Varianz erklären, als Varianz innerhalb der Gruppen vorhanden ist. Ich denke, Sie brauchen einen Cohen's d von 2,0, um 50% der Varianz erklärt zu bekommen.

Hier ist eine Simulation in R:

x <- data.frame(group = "a", dv = rnorm(100000,0,1))
y <- data.frame(group = "b", dv = rnorm(100000,2,1))
df <- rbind(x, y)
fit <- lm(dv ~ group, df)
summary(fit)

Grundsätzlich simuliere ich Daten für zwei Gruppen und ihre Gruppenmittelwerte unterscheiden sich um zwei Standardabweichungen, und das Ergebnis ist 50 % der Varianz erklärt (und 50 % der Varianz unerklärt, dh innerhalb der Gruppenvarianz):

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept) -0.0007719  0.0031664  -0.244    0.807    
groupb       1.9974176  0.0044780 446.050   <2e-16 ***
Multiple R-squared:  0.4987,    Adjusted R-squared:  0.4987 

Im Allgemeinen ist ein Gruppenunterschied von 2,0 sehr groß. Hier ist ein weiterer Artikel , der über verschiedene Indizes für Gruppenunterschiede spricht (Tabelle 1 ist besonders interessant).

Im Allgemeinen macht Murray also vermutlich darauf aufmerksam, dass, obwohl die Gruppenunterschiede nach herkömmlichen Maßstäben ziemlich groß sind, es viele Menschen in der Gruppe mit den niedrigeren Punkten gibt, die besser abschneiden als die Gruppe mit den höheren Punkten. Verwenden Sie diese Erkenntnis also bitte nicht, um Menschen zu stereotypisieren oder auszugrenzen.

Nachverfolgen

Du hast in den Kommentaren gefragt:

Ist es in Anbetracht der Gruppenunterschiede technisch korrekt zu sagen, dass eine zufällig ausgewählte Person einer Gruppe mit niedrigerer Punktzahl mit größerer Wahrscheinlichkeit eine niedrigere Punktzahl hat als eine zufällig ausgewählte Person einer Gruppe mit höherer Punktzahl?

Ja, das ist richtig.

Um diese Frage zu beantworten, siehe Tabelle 1 hier .

"Wahrscheinlichkeit, dass die Person aus der Experimentalgruppe höher ist als die Person aus der Kontrollgruppe, wenn beide zufällig ausgewählt werden (=CLES)"

  • keine Gruppenunterschiede: 50 % Wahrscheinlichkeit
  • 0,5 SD-Unterschied: 64 % Wahrscheinlichkeit
  • 1 SD-Unterschied (dh was in der Vergangenheit manchmal für IQ-Unterschiede einiger Rassen gefunden wurde): 76% Chance
  • 2 SD-Unterschied: 92 % Wahrscheinlichkeit
Wie Sie sagten, gibt es natürlich erhebliche Überschneidungen bei den IQ-Werten zwischen solchen Gruppen; Aber ist es angesichts der Gruppenunterschiede technisch korrekt zu sagen, dass eine zufällig ausgewählte Person einer niedrigeren Bewertungsgruppe mit größerer Wahrscheinlichkeit eine niedrigere Punktzahl hat als eine zufällig ausgewählte Person einer höheren Bewertungsgruppe?
Ich habe gehört (Anmerkung, nicht zuverlässig), dass IQ-Tests in Amerika zumindest für das durchschnittliche weiße Kind geschrieben werden. Ist das Koje?