Angenommen, ein Lehrer erstellt einen Multiple-Choice-Test mit vier Auswahlmöglichkeiten. Für jedes Item gibt es nur eine richtige Antwort. Der Test wird mit 0 bis 100 Punkten bewertet, was den Prozentsatz der richtig beantworteten Items darstellt.
Ich möchte einige Faustregeln haben, die darüber aufschlussreich sein könnten, wie viele Elemente erforderlich sind, um einen bestimmten Standardmessfehler zu erreichen. Zum Beispiel wäre es schön, Lehrern, die ihre eigenen Multiple-Choice-Prüfungen schreiben, raten zu können: "Wenn Sie 100 einigermaßen gut formulierte Aufgaben haben, können Sie mit einem Standardmessfehler von 2,5 rechnen."
Der Standardmessfehler wird oft definiert als:
wo ist die Standardabweichung und ist die Zuverlässigkeit.
Weiterhin kann aus der Anzahl der Items die interne Konsistenzzuverlässigkeit berechnet werden und die mittlere Inter-Item-Korrelation (d. h. durchschnittliche Korrelation zwischen Item und Artikel für alle Artikel wo ):
Ich möchte die obigen Informationen jedoch in sinnvolle Empfehlungen für Lehrer übersetzen. Dies setzt also voraus, dass ich eine empirische Schätzung typischer Werte von habe und dass ich eine Schätzung habe . Dann müssen die Formeln angewendet werden, um Standardmessfehler für wahrscheinliche Anzahlen von Artikeln zu berechnen . Insbesondere dachte ich an eine Anzahl von Elementen, die gleich sind: 10, 20, 50, 80, 100, 120, 150 und 200.
Daher habe ich mich gefragt, ob es veröffentlichte Schätzungen des Standardfehlers der von Lehrern erstellten Multiple-Choice-Tests gibt.
Harvill erwähnt eine Schätzung von Lord (1959). Lord (1959) präsentiert einige Daten für den Standardmessfehler für einige mittelschwere kognitive Maßnahmen. Während es viele Vorbehalte gibt (z. B. ist die Schätzung des Standardfehlers am genauesten für Werte um 50 % und die Schätzungen basieren auf Tests, die mit Mittelwerten im Bereich von 0,35 bis 0,75 weder besonders einfach noch besonders schwierig sind), Herr bietet eine einfache Formel, die als Faustregel für die Vorhersage des Standardmessfehlers in seiner Stichprobe von kognitiven Messungen verwendet werden kann, die recht gut abschneiden.
wo ist die Anzahl der Artikel. Alternativ, wenn Sie eher an der durchschnittlichen Richtigkeit auf einer Skala von 0 bis 100 als an der Gesamtrichtigkeit interessiert sind, können Sie durch dividieren und mit 100 multiplizieren.
Als ich dies für einige Beispielwerte in R steckte, erhielt ich:
> lord_approximation <- function(k) 0.432 * sqrt(k) /k * 100
> k <- c(10, 20, 50, 80, 100, 120, 150, 200)
> cbind(k, sem=round(lord_approximation(k), 2))
k sem
[1,] 10 13.66
[2,] 20 9.66
[3,] 50 6.11
[4,] 80 4.83
[5,] 100 4.32
[6,] 120 3.94
[7,] 150 3.53
[8,] 200 3.05
Natürlich ist nicht die gesamte Verringerung des Standardmessfehlers auf eine höhere Genauigkeit zurückzuführen. Ein Teil davon stammt von der kleineren Standardabweichung der wahren Ergebnisse, die auftritt, wenn Sie den Mittelwert von mehr Elementen nehmen. Darüber hinaus basieren diese Schätzungen auf relativ gut konzipierten kognitiven Maßen. Von Lehrern entworfene Tests haben möglicherweise eine etwas geringere Zuverlässigkeit und damit ein größeres SEM.
Für mich ist die natürlichste Lösung, einfach die Item-Response-Theorie (IRT) zu verwenden. IRT gibt es seit einigen Jahrzehnten, es ist also gut etabliert, in einer Vielzahl von Softwarepaketen implementiert und bietet einen sinnvollen, erweiterbaren Rahmen für diese Art von Problem.
Im Wesentlichen geht man von einem zugrunde liegenden latenten Konstrukt von Interesse aus, dessen Werte zu Antworten auf den Test führen sollten. Für Multiple-Choice-Antworten, bei denen die Antwort „richtig“ oder „falsch“ ist, können Sie eine Reihe von Logit- (kanonisch) oder Probit-Modellen verwenden. Dann können Sie für jeden Schüler die Punktzahl für die zugrunde liegende latente Variable schätzen, und das wird natürlich mit einer Schätzung ihrer Qualität/Variabilität einhergehen.
Probleme, die automatisch behandelt werden:
Wenn Sie eine bayessche Sichtweise einnehmen, könnten Sie für jeden Schüler das Modell und seine Testantworten verwenden, um eine Posterior-Verteilung für das interessierende latente Konstrukt zu berechnen, was sowohl eine Punktschätzung (z. B. Posterior-Mittelwert, Median oder Modus) ermöglichen würde. , sowie Schätzungen der Variabilität (z. B. Standardabweichung; 95 % Region mit hoher posteriorer Dichte).
Diese Art von Dingen ist im Wesentlichen das, was große landesweite Tests und Testdienste tun. Es ist eigentlich nicht zu schwer, aber wahrscheinlich genug Aufwand, die meisten Lehrer, die sich bereits überarbeitet fühlen, übernehmen sie nicht.
Benutzer1196
Jerome Anglim
Artem Kaznatcheev
Josua