Soll ich mir die Daten eines Experiments ansehen, bevor der Datensatz vollständig ist?

Für ein Forschungspraktikum führe ich online psychologische Experimente durch. Da es eine Weile dauert, bis das Experiment abgeschlossen ist (d. h. dass genügend Personen teilgenommen haben, damit eine ausreichende Stichprobengröße erreicht wird), konnte ich mir die Daten bereits ansehen und einige Analysen mit diesem unvollständigen Datensatz durchführen. Auf diese Weise konnte ich bereits einen Trend erkennen, wie das Endergebnis aussehen könnte.

Gibt es methodische Gründe, die dagegen sprechen? Bin ich zum Beispiel auf diese Weise voreingenommen? Oder gibt es einen anderen Grund, warum dies als schlechte Forschungspraxis angesehen werden könnte?

Antworten (3)

Kurze Antwort
Aus ethischer Sicht kann es eine schlechte Praxis sein, auf Zwischenbewertungen zu verzichten.

Hintergrund
Ich beginne mit einem extremeren Fall als in Ihrem Fragebeispiel, nur zur Veranschaulichung, nämlich dem einer klinischen Interventionsstudie . Wenn es den Anschein hat, dass die Behandlungsgruppe (z. B. experimentelles Medikament Y anstelle der Standardbehandlung X ) wesentlich, wenn nicht signifikant, mehr Fälle von schwerwiegenden unerwünschten Ereignissen oder sogar Todesfällen aufweist, kann dies zusammenhängen (oder auch nicht). zur Behandlung Y , das ethisch Beste, was zu tun istwird die Studie auf Eis gelegt, bis die Dinge geklärt sind. Dies, um jede Möglichkeit weiterer körperlicher Schäden durch die experimentelle Behandlung zu verhindern. Dies geschieht ziemlich regelmäßig und sollte von einem Berichtspapier gefolgt werden, in dem die Ergebnisse dargelegt werden, und gegebenenfalls eine Diskussion darüber, wie diese Forschung am besten fortgesetzt werden kann.

In einem eher experimentellen Umfeld kann es auch ethisch am besten sein , vorläufige Daten zu bewerten, da mögliche Fehler im experimentellen Design, unerwartete Ergebnisse (seltsame Ergebnisse oder Artefakte bei beispielsweise Linkshändern) oder Störfaktoren offensichtlich werden können, und rechtzeitige Anpassungen vorzunehmen das Versuchsprotokoll kann erstellt werden. Warum ist das ethisch korrekt? Weil Sie Menschen möglicherweise einem fehlerhaften experimentellen Paradigma aussetzen und viele Stunden ansonsten produktiverer Zeit verschwenden.

Der Fall des anderen Antwortenden, bei dem das Experiment abgebrochen wurde, während zuvor eine statistische Leistungsanalyse durchgeführt wurde , ist ein Fehlverhalten. Umgekehrt ist das nachträgliche Hinzufügen weiterer Subjekte auf der Grundlage von „nahezu-Signifikanz“ ebenfalls eine fragwürdige Praxis. Aber das hängt eher damit zusammen, was Sie mit den experimentellen Zwischendaten machen. Meiner Meinung nach sollten sie kritisch bewertet werden, aber nicht so sehr nach Effektgröße, sondern eher nach Machbarkeit, Korrektheit und Validität – im Grunde um das Studienverfahren auf Plausibilität zu prüfen.

Sie und @qjacob liefern einige sehr gute Punkte. Tatsächlich habe ich eine Leistungsanalyse durchgeführt, was ich meinte, als ich schrieb, "bis eine ausreichende Stichprobengröße erreicht ist", aber ich denke, das hätte klarer sein können. Ich bin froh, dass ich dann nicht komplett auf dem falschen Weg bin. Danke vielmals!
Dies ist eine gute Antwort, und ich möchte auch darauf hinweisen, dass eine richtig konzipierte experimentelle Methode keiner Voreingenommenheit seitens der Person unterliegt, die die Methode ausführt. Es sollte nicht möglich sein, zukünftige Ergebnisse basierend auf Ihrem Wissen über frühere Ergebnisse zu beeinflussen. Wenn ja, haben Sie ein methodisches Problem.
@rmayer06: Sagen Sie zur Verdeutlichung, dass das optionale Stoppen keinen Einfluss auf die Fehlerrate 1. Art hat (wie Gjacob unten vorschlägt), wenn ein Experiment richtig konzipiert ist? Sie möchten Ihre Position nicht falsch charakterisieren, bevor Sie antworten.
@jsakaluk- ja, das meine ich. Alle Studien haben Zeit zwischen den Läufen, sodass automatisch angehalten wird. Wenn Sie für einen längeren Zeitraum anhalten, können sich natürlich andere Probleme und Variabilität einschleichen.

Gjacob hat Recht, dass das optionale Stoppen ein allgemeiner Forschungsfreiheitsgrad ist und einer, der eine beträchtliche und unglückliche intuitive Grundlage hat. Je nach Kontext Ihrer Forschung sind AliceDs Bedenken jedoch auch wichtig.

Es gibt jedoch einen Mittelweg zwischen dem Nicht-Überprüfen und dem P-Hacking: die sequentielle Analyse. Es gibt eine Bayes'sche Version der sequentiellen Analyse, die ich aktualisieren kann, wenn dies Ihr statistisches Paradigma ist, aber ich gehe davon aus, dass Sie Zwischenanalysen mit Nullhypothese-Signifikanztests durchführen möchten, also werde ich mich darauf konzentrieren. Lakens (2014) bietet einen schönen Überblick über diese Praxis. Im Wesentlichen nehmen Sie die Ebene von a Sie über Ihre "Peeks" (z. B. a = 0,05) und verteilen Sie diese Summe a über die Anzahl der Peeks, die Sie während Ihres gesamten Sampling-Prozesses mitnehmen möchten. Dann wenn p niedriger als diese verteilt ist a Bei jedem Ihrer Peeks können Sie die Null bei ablehnen a = 0,05, und Sie werden Ihre Fehlerrate 1. Art nicht aufgeblasen haben, wie Sie es mit einem generischen optionalen Stoppen tun würden.

Es ist etwas komplizierter als ich es hier präsentiere - und es gibt eine Reihe von Methoden, um Ihre Gesamtsumme zu verteilen a – aber nicht viel. Wenn Sie Ihren Kopf um eine Bonferroni-Korrektur wickeln können, ist dies eine sehr ähnliche Technik.

Lakens, D. (2014). Leistungsstarke Studien effizient mit sequentiellen Analysen durchführen. Europäische Zeitschrift für Sozialpsychologie , 44(7), 701-710.

Willkommen und danke für die tolle Antwort.+1
Vielen Dank! Ich lauere hier schon eine Weile auf die Beta :) Ich hatte gehofft, hier mehr Fragen zur Reproduzierbarkeit zu stellen (und zu beantworten), damit wir durchsuchbare Fragen und Antworten im Vergleich zu endlosen sich wiederholenden Fragen in den sozialen Medien haben. Freut mich, dass diese Art von q hier auftaucht!
Diese Art von Frage könnte auch für CrossValidated und vielleicht sogar für die Wissenschaft geeignet sein. Daher denke ich, dass die Anzahl solcher Fragen, die auf diesem Stapel gepostet werden, gering bleiben wird. Nichtsdestotrotz finde ich es eine tolle Frage, da sie aus vielen Blickwinkeln angegangen werden kann, wie die unterschiedlichen Antworten zeigen. Gute Sachen hier.

Dies ist eine wichtige Frage! Diese Praxis („optionales Stoppen“, wenn Sie aufhören, Daten basierend auf Ihren frühen Analysen zu sammeln, oder „Peeking“, wenn Sie weiterhin Daten sammeln) wird heutzutage als schlechte Idee angesehen. Es ist ein „Forscherfreiheitsgrad“ – eine Praxis, die langfristig und gemittelt über das Feld (empirisch) zu hohen falsch-positiven Raten zu führen scheint. Es ist eine Form der explorativen Analyse, und obwohl EA an und für sich nicht schlecht ist, kann das optionale Stoppen/Spähen Forscher dazu veranlassen, der Bedeutung von Trends nachzujagen, die sie in ihren Daten sehen, vielleicht indem sie bestimmte Beobachtungen selektiv ausschließen und ihre a priori-Hypothesen fallen lassen. Ignorieren ihrer a priori Machtanalysen, etc...

Erwägen Sie stattdessen, eine Leistungsanalyse durchzuführen. (Ich empfehle G*Power , das kostenlos heruntergeladen werden kann). Ich empfehle, eine Leistungsanalyse durchzuführen, bevor Sie mit dem Sammeln von Daten beginnen, das Gesamt-N zu bestimmen, auf das Sie zielen, und nicht auf Ihre Daten zu schauen, bis Sie das erreicht haben. Es ist effektiv, sich selbst zu „blenden“, ähnlich wie medizinische Forscher Doppelblindstudien verwenden, um die Zuverlässigkeit ihrer Ergebnisse sicherzustellen.

Sehen Sie sich dieses Papier für eine längere Diskussion der Freiheitsgrade von Forschern an: http://journals.sagepub.com/doi/abs/10.1177/0956797611417632