Was ist der optimale Mittelwert, der bei einem Multiple-Choice-Test richtig ist, um die Messung individueller Unterschiede zu maximieren?

Was ist der optimale Mittelwert für ein Multiple-Choice-Testelement, um die Messung individueller Unterschiede zu maximieren?

Antworten (1)

Mein Verständnis ist, dass im Allgemeinen ein richtiger Prozentsatz von 50 % optimal ist, wenn kein Spielraum für Vermutungen besteht. Bei Multiple-Choice-Tests gibt es jedoch eine gewisse Anzahl von Antwortmöglichkeiten. Die Wahrscheinlichkeit, die richtige Antwort zu erhalten, wenn man nichts weiß, ist also eins über der Anzahl der Antwortmöglichkeiten.

In diesem Fall glaube ich, dass das Optimum ist:

1 / k + 1 1 / k 2

wobei k die Anzahl der Antwortmöglichkeiten ist.

Das Optimum für verschiedene Werte von k wäre also:

  • k = 2: optimaler Anteil richtig = 0,75
  • k = 3: optimaler Anteil richtig = 0,67
  • k = 4: optimaler Anteil richtig = 0,625
  • k ist unendlich: optimaler Anteil richtig = 0,50

Trotzdem würde ich gerne die klassischen Referenzen finden, aus denen ich diese Ideen erhalten habe. Und ich kann mir vorstellen, dass die Item-Response-Theorie dazu etwas mehr zu sagen hat, insbesondere in Bezug auf die allgemeine Empfehlung, das richtige Verhältnis über einen Bereich zu variieren.

Darüber hinaus geht keine der oben genannten Empfehlungen auf das Problem ein, dass es für einige Testteilnehmer einschüchternd sein kann, den Schwierigkeitsgrad für die meisten Items auf das oben genannte Niveau zu setzen.

Wenn Sie glauben, dass "die Wahrscheinlichkeit, die richtige Antwort zu erhalten, wenn Sie nichts wissen, eins über der Anzahl der Antwortmöglichkeiten liegt", würden Sie dann nicht einfach 0,5 statt 0,75 für zwei Optionen erwarten? Könnten Sie ein wenig mehr erklären, warum Sie den zweiten Teil der Formel hinzufügen würden?
Wenn die Antworten auf einen Test rein zufällig sind (dh die mittlere richtige Antwort liegt bei 50 % bei einer RICHTIG/FALSCH-Frage), dann erfahren Sie höchstwahrscheinlich nichts über die Testteilnehmer. Nur wenn einige Personen die Frage beantworten können und andere nicht, erfährt man von individuellen Unterschieden. Oder genauer gesagt, Menschen unterscheiden sich in einer Wissensverteilung, und die Platzierung in dieser Verteilung sollte die Wahrscheinlichkeit beeinflussen, ein Item richtig zu beantworten. Ein informativer Schwierigkeitsgrad liegt also auf halbem Weg zwischen zufälliger Antwort und jeder, die das Item richtig beantwortet.
Ah jetzt sehe ich. Dieser Wert würde also für Zwischentests innerhalb von Fächerunterschieden korrigiert werden, sodass eine Punktzahl von 75 bei einem Zwei-Auswahl-Test einer 67 bei einem Drei-Auswahl-Test entsprechen würde?
Es geht nicht so sehr um Testunterschiede. Es geht vielmehr darum, wie schwierig ein Testdesigner Multiple-Choice-Aufgaben erstellen sollte, um die Zuverlässigkeit und Validität zu maximieren.