Brauchen wir einen Vortest, um die Wirksamkeit zweier Behandlungen zu vergleichen?

Angenommen, ich möchte auswerten, wie effektiv zwei Lehrerinnen und Lehrer deutschen Kindern Englisch beibringen. Beide Lehrer unterrichten seit zwanzig Jahren an derselben High School und beide verwenden eine deutlich unterschiedliche pädagogische Methodik. Tatsächlich ist zwischen ihnen ein kleiner Wettbewerb entstanden: Sie haben ihre Ideen und ihre Praxis in für ihren Beruf relevanten Zeitschriften veröffentlicht und diskutiert, und sie haben jetzt einen Datenanalysten (Sie) hinzugezogen, um diese Bewertung durchzuführen, die, so hoffen sie, entscheiden wird ihren Wettbewerb und versöhnen die ehemaligen Freunde.

Die Schule, an der sie beide arbeiten, ist die einzige Schule für ihre kleine Stadt. Beim Eintritt in diese Schule werden die Schüler nach dem Zufallsprinzip in Klassen eingeteilt: Die eine Hälfte der Kinder wird einer Klasse (und einem Mathematiklehrer) zugeteilt, die andere Hälfte der anderen Klasse (und dem anderen Mathematiklehrer).

Die beiden Lehrer sind es leid, nicht zu wissen, welche Methode die beste ist. Im Interesse ihrer Schüler wollen sie sich endlich für das Bessere entscheiden und beide nutzen das fortan. Sie hoffen, dass man nicht eine Kohorte von Kindern testen muss, wenn sie die Grundschule beendet haben, sie die 8 Jahre von der 5. Klasse bis zum Abitur unterrichten lassen und dann ihre mathematischen Fähigkeiten erneut messen müssen, um zu einem zu kommen Fazit. Deshalb fragen sie dich:

Reicht es aus, die Niveaus der abhängigen Variablen nach der Intervention zu vergleichen? Oder müssen Sie es auch vor dem Eingriff messen? Wieso den?

Aber Sie haben die Depression gemessen: Sie wissen, dass Ihre Probanden leichte Depressionen haben.
Ich habe mein Beispiel auf einen Fall geändert, in dem wir die Werte für die Vorbehandlung nicht haben.
In Ihrem Beispiel ist die Klassenzuweisung definitiv überhaupt nicht zufällig. Der Anfangsbuchstabe des Nachnamens hängt in vielen Gesellschaften von der Sprache und damit der ethnischen Zugehörigkeit/Herkunft und vielen anderen relevanten sozioökonomischen Variablen ab. Dieser war leicht zu entlarven und könnte zu einigen großen Korrelationen führen, aber im Allgemeinen sind diese Art von Verfahren überhaupt keine gute Methode zur Randomisierung.
@GaëlLaurans Ja, okay, ich habe mein Beispiel bearbeitet. Gehen Sie einfach davon aus , dass die Zuweisung zufällig ist. Der Fokus meiner Frage liegt woanders.
Nun, deshalb war es nur ein Kommentar. Ich fand es nur lustig, dass Sie so selbstbewusst sein sollten, wenn mir klar war, dass dies starke psychologisch relevante Korrelationen erzeugen würde. Auf solche Dinge zu achten ist unendlich viel wichtiger als statistische Feinheiten oder eine Pre-Test-Maßnahme. In Bezug auf die Frage selbst denke ich, dass Jeromy sie bereits recht gut behandelt hat. Vielleicht möchten Sie auch stats.stackexchange.com/questions/3466/… überprüfen , das viele Referenzen zu den damit verbundenen Problemen enthält.
Dies wäre auch gut für Cross Validated gewesen (wenn möglicherweise ein Duplikat, obwohl ich keins finden kann, das ich empfehlen könnte). Zu viele Fragen stellen die Frage, was mit bereits gesammelten Daten zu tun ist; nicht genug über das Forschungsdesign. Jeromys Antwort ist jedoch großartig; Ich könnte sogar Leute im Lebenslauf darauf verweisen. :)

Antworten (1)

Antworten Sie basierend auf Ihrem ursprünglichen Depressionsbeispiel

Beachten Sie, dass diese Antwort ursprünglich auf der Grundlage Ihres ersten Beispiels geschrieben wurde, in dem Sie gefragt haben:

Angenommen, ich habe eine neue Intervention für Menschen mit leichten Depressionen entwickelt. Ich möchte die Wirksamkeit dieser Intervention (E) mit einer bestehenden Intervention (C) vergleichen. Dazu rekrutiere ich Probanden aus der örtlichen psychotherapeutischen Ambulanz und teile sie nach dem Zufallsprinzip entweder der Experimental- (E) oder der Kontrollgruppe (C) zu. Die interessante abhängige Variable ist natürlich die Depressivität.

Im Allgemeinen müssen Sie die Vorbehandlung für die abhängige Variable nicht messen . Bei der Grenzzufallszuordnung wird dafür gesorgt, dass die Gruppen gleich sind. Oder anders ausgedrückt: Die zufällige Zuweisung stellt sicher, dass die Gruppen nicht voreingenommen sind, bei der abhängigen Variablen zu Studienbeginn höher oder niedriger zu sein. Ein typischer t-Test zwischen Subjekten, der die Ergebnisse nach der Behandlung vergleicht, würde typischerweise einen unvoreingenommenen Test liefern, ob die Intervention eine Wirkung auf die abhängige Variable (dh Depression) im Vergleich zur Kontrollintervention hatte.

Allerdings bietet die Einbeziehung einer Basismessung viele Vorteile :

  • Das Einbeziehen eines Grundlinienmaßes der Depression wird Ihnen fast immer mehr statistische Aussagekraft geben, da Sie in der Lage sind, einen Großteil der stabilen individuellen Unterschiede in der abhängigen Variablen (dh Depression) zu kontrollieren.
  • Wenn Ihre Teilnehmer während der Intervention abbrechen, kann es hilfreich sein zu sehen, ob dies mit den Ausgangswerten zusammenhängt.
  • Sie können damit beginnen, individuelle Unterschiede in der Wirkung der Intervention einzuschätzen.
  • Wenn es Fragen dazu gibt, ob die zufällige Zuordnung korrekt durchgeführt wurde, können Sie auf Baseline-Unterschiede testen.

Beachten Sie, dass es mehrere Optionen für die Analyse von Kontrolldesigns vor und nach der Behandlung gibt, darunter ANCOVA, Differenzwerte und Interaktionseffekte. Siehe diese Diskussion für weitere Ideen .

Beachten Sie auch, dass es gute Gründe gibt, eine Intervention durch Messung von mehr als zwei Zeitpunkten zu bewerten . Beispielsweise könnten Sie (a) mehrere Basismessungen erhalten, um ein Gefühl für die Stabilität vor der Intervention zu bekommen, (b) mehrere Messungen während der Intervention, um die Depression während der Intervention zu beurteilen, und (c) insbesondere mehrere Folgemessungen sehen Sie sowohl die unmittelbaren als auch die längerfristigen Auswirkungen der Intervention.

Aktualisierte Punkte basierend auf dem Unterrichtsbeispiel

  • Es ist eine empirische Frage, ob der Anfangsbuchstabe des Nachnamens mit der Wirkung der Lehrintervention oder Baseline-Unterschieden zusammenhängt. Im Allgemeinen wäre es besser, eine bessere Form der Randomisierung der Teilnehmer in Gruppen zu haben.
  • Bei Fragen zum Randomisierungsverfahren kann das Vorhandensein einer Pretest-Maßnahme hilfreich sein, um dies zu überprüfen.
  • Es gibt mehrere besondere Probleme im Zusammenhang mit der Bewertung der Wirksamkeit von Interventionen in Bezug auf Kinder in Klassenzimmern, selbst wenn die Schüler den Klassenzimmern nach dem Zufallsprinzip zugewiesen wurden. (a) Mit jeweils nur einem Klassenzimmer ist es schwierig herauszufinden, was die Wirkung des Lehrers und was die Wirkung des Lehrplans ist; (b) in der Regel fehlt es an unabhängigen Beobachtungen. So können sich beispielsweise Schüler innerhalb des Klassenzimmers gegenseitig beeinflussen. Daher ist Ihre effektive Stichprobengröße nicht so groß, wie es scheinen mag.
Okay ich verstehe. Nehmen wir an, dies ist keine Behandlung von Depressionen, sondern etwas, das die allgemeine Bevölkerung erlebt, wie eine Schulbildung. Die Population, an der wir interessiert sind, ist also keine Teilpopulation, die schwer zu identifizieren sein wird, sondern einfach jeder. Auf diese Weise ist es einfach, Wiederholungsstichproben zu ziehen und sicherzustellen, dass alle Stichproben die gleichen normalverteilten Merkmale (z. B. Abiturnoten) aufweisen. [Fortsetzung]
[Forts.] Wäre es legitim, die Wirkung der beiden "Behandlungen" in zwei Klassen zu messen, die mit zwei unterschiedlichen Methoden unterrichtet werden, und die Messung der Grundlinie mit einer dritten Gruppe von Kindern, die gerade zur gleichen Zeit in die Schule kommen (z. B. 11. 2013), anstatt jetzt eine Gruppe von Erstklässlern zu messen und dieselben Kinder nach der Behandlung in zehn Jahren erneut zu messen? (Angenommen, die Kinder wurden zufällig den Experimental- und Kontrollklassen usw. zugeteilt. Ich versuche nur, die Prinzipien zu verstehen, die Beispiele werden im Laufe der Zeit erstellt.)
Das Wichtigste, was Sie in Ihrer Frage erwähnt haben, ist "Zufallszuweisung". Im Allgemeinen ändert die Wahl der abhängigen Variablen nichts. Wenn man jedoch in einen bestimmten Forschungskontext eintritt, ergeben sich andere Probleme. Beispielsweise haben Unterrichtsinterventionen ihre eigenen Merkmale in Bezug auf die Art der Bereitstellung in gemeinsamen Klassenzimmern.
Ich habe mein Beispiel geändert, damit es besser zur Frage passt. Vielleicht ist es so sinnvoller.
Ich möchte betonen, dass, obwohl die zufällige Zuordnung theoretisch ausreichend ist (wie Jeromy bereits bemerkte), es in Wirklichkeit sehr schwierig ist, zufällige Stichproben zu erhalten. ZB können Sie Schüler nicht zufällig einer Klasse zuordnen. Und selbst wenn, ab diesem Zeitpunkt sind sie alle in derselben Klasse und Maßnahmen sind nicht mehr unabhängig. Hierarchische Modelle wurden mit Blick auf diese Anwendung entwickelt, sie eignen sich jedoch für eine Vielzahl von Kontexten. Vielleicht wäre das also eine Option.
Ich verstehe die Probleme mit der Randomisierung. Aber in der realen Forschung ist eine Randomisierung oft unmöglich. Denken Sie an Online-Umfragen: Es gibt eine Auswahl der Teilnehmer danach, wer Zugang zum Internet hat und wer nicht (und das hat auch heute noch nicht jeder), die technischen Voraussetzungen (jemand hat hier kürzlich eine Umfrage in Java programmiert, die nur darunter läuft Windows – kein Linux, Mac oder mobiler Zugriff) usw. Offensichtlich werfen die Leute die Daten aus solchen Umfragen nicht weg, und die Ergebnisse werden veröffentlicht. Abgesehen von Randomisierungsproblemen lautet der Kern meiner Frage also, ob wir einen Vortest benötigen oder nicht.
@was Sie verwechseln Randomisierung und Zufallsstichprobe. Es ist durchaus möglich, selbst ausgewählte Teilnehmer einer Internetumfrage zufällig verschiedenen Zuständen zuzuordnen und valide Rückschlüsse auf die Wirkung dieser Manipulation zu ziehen. Die Verallgemeinerung Ihrer Schlussfolgerungen auf eine genau definierte Population (jenseits von „Personen, die bereit sind, an meiner Studie teilzunehmen“) ist problematisch, aber das ist ein ganz anderes Problem. Beachten Sie auch, dass Pre-Test-Maßnahmen für eine Reihe von Dingen nützlich sein können, aber sie ersetzen keine Randomisierung.
@GaëlLaurans Du hast Recht, danke.