Was ist der Standardmessfehler für Multiple-Choice-Tests, die von Lehrern erstellt werden?

Angenommen, ein Lehrer erstellt einen Multiple-Choice-Test mit vier Auswahlmöglichkeiten. Für jedes Item gibt es nur eine richtige Antwort. Der Test wird mit 0 bis 100 Punkten bewertet, was den Prozentsatz der richtig beantworteten Items darstellt.

Ich möchte einige Faustregeln haben, die darüber aufschlussreich sein könnten, wie viele Elemente erforderlich sind, um einen bestimmten Standardmessfehler zu erreichen. Zum Beispiel wäre es schön, Lehrern, die ihre eigenen Multiple-Choice-Prüfungen schreiben, raten zu können: "Wenn Sie 100 einigermaßen gut formulierte Aufgaben haben, können Sie mit einem Standardmessfehler von 2,5 rechnen."

Der Standardmessfehler wird oft definiert als:

s e = s x 1 r x x

wo s x ist die Standardabweichung und r x x ist die Zuverlässigkeit.

Weiterhin kann aus der Anzahl der Items die interne Konsistenzzuverlässigkeit berechnet werden k und die mittlere Inter-Item-Korrelation r ¯ ich j (d. h. durchschnittliche Korrelation zwischen Item ich und Artikel j für alle k Artikel wo ich j ):

r x x = k ( r ¯ ich j ) 1 + ( k 1 ) r ¯ ich j

Ich möchte die obigen Informationen jedoch in sinnvolle Empfehlungen für Lehrer übersetzen. Dies setzt also voraus, dass ich eine empirische Schätzung typischer Werte von habe r ¯ ich j und dass ich eine Schätzung habe s x . Dann müssen die Formeln angewendet werden, um Standardmessfehler für wahrscheinliche Anzahlen von Artikeln zu berechnen k . Insbesondere dachte ich an eine Anzahl von Elementen, die gleich sind: 10, 20, 50, 80, 100, 120, 150 und 200.

Daher habe ich mich gefragt, ob es veröffentlichte Schätzungen des Standardfehlers der von Lehrern erstellten Multiple-Choice-Tests gibt.

Ich lerne gerade erst Statistik, daher ergibt sich meine Frage aus meiner Unwissenheit: Was bedeutet der Standardfehler in einem Multiple-Choice-Test? Sie ziehen keine Zufallsstichprobe aus einer Grundgesamtheit, sondern testen die gesamte Grundgesamtheit (die Grundgesamtheit ist die vom Lehrer unterrichtete Klasse). Ich bin immer davon ausgegangen, dass sich der Standardfehler auf die Differenz zwischen der Stichprobe und der Grundgesamtheit bezieht, die sie darstellen soll.
Der Standardmessfehler ist die Standardabweichung, die sich ergeben würde, wenn Sie wiederholt ein Maß für eine bestimmte Person unter hypothetischen identischen Umständen erhalten könnten. Das heißt, es ist ein Maß für die Unsicherheit, die Sie über ein Maß haben, das Sie an einer Person erhalten haben.
Das ist fantastisch! Es wäre großartig, wenn ich alle meine Prüfungen und Aufgaben mit Fehlerbalken zurückerhalten würde.
Ein Hauptproblem hier ist, wie verwandt sind die Gegenstände? Insbesondere würde ich mir Sorgen machen, dass die Ähnlichkeit der Items mit zunehmender Anzahl zunimmt – ein Test mit 20 Items kann ziemlich anders sein, aber ein Test mit 200 Items kann eine erhebliche Redundanz aufweisen.

Antworten (2)

Harvill erwähnt eine Schätzung von Lord (1959). Lord (1959) präsentiert einige Daten für den Standardmessfehler für einige mittelschwere kognitive Maßnahmen. Während es viele Vorbehalte gibt (z. B. ist die Schätzung des Standardfehlers am genauesten für Werte um 50 % und die Schätzungen basieren auf Tests, die mit Mittelwerten im Bereich von 0,35 bis 0,75 weder besonders einfach noch besonders schwierig sind), Herr bietet eine einfache Formel, die als Faustregel für die Vorhersage des Standardmessfehlers in seiner Stichprobe von kognitiven Messungen verwendet werden kann, die recht gut abschneiden.

s ^ e = .432 k

wo k ist die Anzahl der Artikel. Alternativ, wenn Sie eher an der durchschnittlichen Richtigkeit auf einer Skala von 0 bis 100 als an der Gesamtrichtigkeit interessiert sind, können Sie durch dividieren k und mit 100 multiplizieren.

s ^ e = .432 k k × 100

Als ich dies für einige Beispielwerte in R steckte, erhielt ich:

> lord_approximation <- function(k) 0.432 * sqrt(k) /k * 100
> k <- c(10, 20, 50, 80, 100, 120, 150, 200)
> cbind(k, sem=round(lord_approximation(k), 2))
       k   sem
[1,]  10 13.66
[2,]  20  9.66
[3,]  50  6.11
[4,]  80  4.83
[5,] 100  4.32
[6,] 120  3.94
[7,] 150  3.53
[8,] 200  3.05

Natürlich ist nicht die gesamte Verringerung des Standardmessfehlers auf eine höhere Genauigkeit zurückzuführen. Ein Teil davon stammt von der kleineren Standardabweichung der wahren Ergebnisse, die auftritt, wenn Sie den Mittelwert von mehr Elementen nehmen. Darüber hinaus basieren diese Schätzungen auf relativ gut konzipierten kognitiven Maßen. Von Lehrern entworfene Tests haben möglicherweise eine etwas geringere Zuverlässigkeit und damit ein größeres SEM.

Verweise

  • Harvill, LM (1991). Standardmessfehler. Bildungsmessung: Probleme und Praxis, 10 (2), 33-41. Pdf
  • Herr, FM (1959). Tests gleicher Länge haben den gleichen Standardmessfehler. Pädagogische und psychologische Messung, 19, 233-239.
interessant, aber dies scheint davon auszugehen, dass jede Frage unabhängig von den anderen ist. In einem tatsächlichen Test gibt es jedoch extrem hohe Korrelationen zwischen den Fragen. Insbesondere sollte ein gültiges Maß zumindest Fragen berücksichtigen, die aus einer festen Anzahl relativ unabhängiger Einheiten (dh Kapitel oder Themen) mit hoher Frage-Frage-Korrelation innerhalb der Einheiten stammen. Sie könnten Lehrern auch ein Software-Tool geben, um typische Frage-Frage-Korrelationen abzuleiten, indem Sie Statistiken über die Ergebnisse der Schüler bei ihren vorherigen Prüfungen erstellen.

Für mich ist die natürlichste Lösung, einfach die Item-Response-Theorie (IRT) zu verwenden. IRT gibt es seit einigen Jahrzehnten, es ist also gut etabliert, in einer Vielzahl von Softwarepaketen implementiert und bietet einen sinnvollen, erweiterbaren Rahmen für diese Art von Problem.

Im Wesentlichen geht man von einem zugrunde liegenden latenten Konstrukt von Interesse aus, dessen Werte zu Antworten auf den Test führen sollten. Für Multiple-Choice-Antworten, bei denen die Antwort „richtig“ oder „falsch“ ist, können Sie eine Reihe von Logit- (kanonisch) oder Probit-Modellen verwenden. Dann können Sie für jeden Schüler die Punktzahl für die zugrunde liegende latente Variable schätzen, und das wird natürlich mit einer Schätzung ihrer Qualität/Variabilität einhergehen.

Probleme, die automatisch behandelt werden:

  • Wenn jeder (oder fast jeder) eine richtige Antwort bekommt, trägt es sehr wenig Information bei
  • Folge zu Nr. 1: Wenn fast niemand eine richtige Antwort bekommt und jemand es tut, sollte dies stärker gewichtet werden. Im Wesentlichen wird die Gegenstandsschwierigkeit automatisch gehandhabt.
  • Die gegenseitige Abhängigkeit zwischen den Artikeln wird berücksichtigt. Dasselbe Item 10 Mal hintereinander zu fragen wird deinen Messfehler nicht künstlich verringern.

Wenn Sie eine bayessche Sichtweise einnehmen, könnten Sie für jeden Schüler das Modell und seine Testantworten verwenden, um eine Posterior-Verteilung für das interessierende latente Konstrukt zu berechnen, was sowohl eine Punktschätzung (z. B. Posterior-Mittelwert, Median oder Modus) ermöglichen würde. , sowie Schätzungen der Variabilität (z. B. Standardabweichung; 95 % Region mit hoher posteriorer Dichte).

Diese Art von Dingen ist im Wesentlichen das, was große landesweite Tests und Testdienste tun. Es ist eigentlich nicht zu schwer, aber wahrscheinlich genug Aufwand, die meisten Lehrer, die sich bereits überarbeitet fühlen, übernehmen sie nicht.

Solide Antwort, vielleicht würden Lehrer dies verwenden, wenn Sie eine Plug-and-Play-Version davon erstellen würden, die direkt die Ergebnisse von Scantron-Blättern übernimmt (werden diese noch verwendet?) Und die Statistiken für sie erstellen?
+1 Ich stimme zu, dass IRT (insbesondere bayesianisches IRT) einen großartigen Rahmen für die Modellierung von Multiple-Choice-Tests bietet. In meinem speziellen Fall suche ich nach Heuristiken, die Lehrer verwenden könnten, um ihre Entscheidung darüber zu leiten, wie viele Elemente in einen Test aufgenommen werden sollen. Ich möchte Lehrern eine ungefähre Vorstellung davon geben, wie viel genauer ihr Test sein könnte, wenn sie beispielsweise ihren Test von 80 auf 100 Items erhöhen würden.
Neben Schwierigkeiten bei der Implementierung wird IRT meines Erachtens nicht in von Lehrern erstellten Testumgebungen angewendet, da häufig ein impliziter Vertrag mit den Schülern besteht. Das heißt, die Note eines Schülers steht in direktem Zusammenhang mit dem Anteil der richtig beantworteten Aufgaben. Somit stellt sich im IRT noch die Frage, wie Thetas auf Prüfungsnoten abgebildet werden. Natürlich kann dies überwunden werden, aber ich denke, es stellt ein weiteres Hindernis für die Akzeptanz dar, insbesondere wenn der Test verwendet wird, um Urteile über die absolute Leistung und nicht nur über die normative Leistung zu fällen.
@JeromyAnglim Dem stimme ich in Bezug auf die absolute Leistung zu. Allerdings wird dort implizit davon ausgegangen, dass Lehrer tatsächlich über ein gültiges Maß für absolute Leistung verfügen. Ich denke, das ist eine viel strengere Annahme als die, dass sie ein gültiges Maß für die relative Leistung haben (ich bin offen dafür, das zu argumentieren). In Bezug auf die Genauigkeit des Tests bin ich mir nicht sicher, wie vernünftig eine Heuristik sein könnte. Das hängt von der relativen (Un-)Abhängigkeit der Items ab, richtig? Kann ein Lehrer im Extremfall dieselbe Frage weitere 20 Mal stellen, um auf 100 zu kommen und immer noch genauer zu sein?
In Bezug auf Heuristiken: Jede Heuristik würde auf der Annahme basieren, dass der Lehrer eine Reihe zusätzlicher Aufgaben von ungefähr vergleichbarer Qualität, Schwierigkeit und Vielfalt wie die vorhandenen Aufgaben schreiben würde. Ich erkenne an, dass sich einige Lehrer in ihren Fähigkeiten dabei unterscheiden könnten, aber gleichzeitig könnte eine Heuristik in Bezug auf einen Ballpark oder eine typische Reichweite festgelegt werden.
In Bezug auf die absolute Leistung: Ich stimme zu, dass es sehr schwierig ist, Aussagen über die absolute Leistung aus einem Test auf strenge Weise zu machen. Aber letztendlich ist jeder Lehrer, der gefragt wird, was die Bestehensnote ist, gezwungen, irgendwo einen absoluten Schlussstrich zu ziehen. Dies kann ein bestimmter Theta-Wert oder ein bei einem Test korrekter Anteil sein. Ich vermute, dass viele Lehrer sich wohler fühlen, wenn sie über richtige Proportionen sprechen (z. B. weniger als 50 %, 60 % oder was auch immer der Brauch ist, ist ein Misserfolg).