Wie können Reaktionszeiten und Genauigkeit gemeinsam analysiert werden?

Gibt es außer MANOVA eine gute Möglichkeit, Reaktionszeiten und Genauigkeit gemeinsam zu analysieren ?

Ich habe Daten aus einem Experiment, bei dem die Teilnehmer in einem Innersubjekt-Design unter zwei verschiedenen Bedingungen auf Stimuli reagieren mussten. Und ich habe den Eindruck, dass sich einige Probanden in der Genauigkeit zwischen diesen beiden Bedingungen unterscheiden, während andere sich in der Reaktionszeit unterscheiden. Wie kann ich eine solche Hypothese testen?

Antworten (6)

Ein Papier, das die Leistung von Inverse Efficiency Scores und Diffusionsmodellen zur Quantifizierung von RT und Genauigkeit vergleicht, finden Sie hier .

Rachet al. (2011) „Zur Quantifizierung multisensorischer Interaktionseffekte in Reaktionszeit und Erkennungsrate“ Psychological Research Volume 75, Number 2, 77-94, DOI , PDF

MANOVA ist definitiv eine schlechte Idee, da ein dv stetig und der andere binomial ist. Nachdem ich eine Reihe verschiedener Ansätze zur Kombination von RT- und Genauigkeitsdaten untersucht habe, bin ich zu dem Schluss gekommen, dass der beste aktuelle Ansatz darin besteht, ein lineares ballistisches Akkumulatormodell zu verwenden (siehe z. B. Donkin et al. 2011).

Die LBA ist ein einfacher (struktureller und rechnerischer) Rahmen, mit dem Sie mit den verschiedenen Prozessen (Effizienz der Informationsverarbeitung vs. Antwortkriterium) sprechen können, die gemeinsam zu RT- und Fehlerdaten beitragen.

Verweise

  • Donkin, C., Brown, S. & Heathcote, A. (2011). Schlussfolgerungen aus ausgewählten Reaktionszeitmodellen ziehen: Ein Tutorial mit dem linearen ballistischen Akkumulator. Zeitschrift für Mathematische Psychologie, 55, 140-151. Pdf
Danke Mike. Warum würden Sie die LBA dem Diffusionsmodell von Ratcliff vorziehen?
Heutzutage bevorzuge ich LBA, weil es rechnerisch einfach/schneller anzupassen ist und weil ich keine Demonstrationen von Fällen gesehen habe, in denen die Diffusion Daten anpassen kann, die LBA nicht kann

Es gibt eine Vielzahl von Modellen, die Genauigkeit und RT lösen, die ziemlich gut getestet wurden, und LBA ist wahrscheinlich in Ordnung (ich habe es nicht verwendet). Wenn Sie nicht so weit gehen wollen, gibt es einen ziemlich einfachen Weg, Daten zu analysieren, die für SAT kontrollieren, die viel bessere mathematische Eigenschaften haben als IE-Scores (die, wie Mike sagte, von mir benannt wurden, aber von Townsend & Asby beiläufig vorgeschlagen wurden, leicht konzeptualisierbar in Bezug auf ältere Werte der Informationsrate, die Informationen konstant halten, und wahrscheinlich am meisten von Shore populär gemacht).

Das erste Problem bei der IE-Transformation (rt in ms ÷ Anteil korrekt) besteht darin, dass sie eine lineare Beziehung zwischen RT und acc annimmt. Das ist eindeutig nicht der Fall. Während man oft eine lineare Beziehung zwischen einem Prädiktor und RT erreichen kann, ist die Beziehung zwischen einem Prädiktor und der Genauigkeit ausnahmslos eine Spitzkehre. Man kann es viel linearer machen, indem man die Genauigkeit in Logit- oder Log-Odds-Werte umwandelt (denken Sie daran, dass Genauigkeit und in den meisten Fällen sogar RT VÖLLIG willkürliche Darstellungen dessen sind, was sie messen). Darüber hinaus hat rt viel bessere statistische Eigenschaften, die als Antworten/Sekunde dargestellt werden als Sekunden/Antwort. Wenn Sie also 1/rt in Sekunden nehmen, werden diese Daten normaler. Daher sind Logit/inverse RT-Scores möglicherweise eine bessere Transformation. Aber es ist immer noch eine Transformation in eine unbekannte Partitur ...

Aber ... wenn Sie so weit gehen wollen, warum modellieren Sie dann nicht einfach die logistische Regression auf RT in jeder Bedingung? Sie könnten dann die RT für jede Bedingung (vielleicht den Gesamtmittelwert) konstant halten und die Änderungen der vorhergesagten Genauigkeit über die Bedingungen hinweg betrachten. Das wäre eine vernünftige Möglichkeit, beides zu kombinieren.

Das einzige Problem, auf das ich bei letzterem gestoßen bin, ist, dass es um die Vorderkante Ihrer RT-Distribution geht. Sie müssen alles nach Genauigkeitsasymptoten abhacken. Wenn das, was Sie messen wollten, die unmittelbare Reaktion auf einen Stimulus ist, dann ist das vollkommen in Ordnung. Wenn Sie etwas über die Schwänze der Verteilungen erfassen möchten, ist dies möglicherweise nicht gut dargestellt, aber Sie können sich das separat ansehen. Sie könnten diese späteren Daten behalten, indem Sie einfach die logistische Regression quadratisch machen. Auf der anderen Seite besteht ein Vorteil darin, dass Sie tatsächlich alle frühen RTs mit geringer Genauigkeit nutzen.

Diese Methode erfordert diese RTs mit geringer Genauigkeit, sodass Sie im Allgemeinen die Geschwindigkeit des Experiments fördern müssen. Dies sollte auch mit jeder Transformation oder jedem Modell von RT und Genauigkeit erfolgen, da Sie eine gewisse Genauigkeitsvarianz haben müssen, um damit arbeiten zu können.

(Eine Sache, die ich nicht versucht habe, die wahrscheinlich funktionieren würde, ist, RT einfach in eine mehrstufige logistische Regression der Genauigkeit einzugeben. Wenn Sie es als Interaktionsterm einbeziehen, können Sie die vorhergesagten Ergebnisse untersuchen, die es konstant halten.)

Die Vor- und Nachteile der Verwendung eines Binomial-Mixed-Effects-Modells der Genauigkeit als Funktion von RT und anderen Prädiktoren zu betrachten, ist eines der Projekte, die ich vor dieser Diskussion für unseren Sommerstatistikstudenten geplant hatte, obwohl ich darüber nachdenke, beide linear zu betrachten und verallgemeinerte additive Modelle der Wirkung von RT.
Ich habe nicht ganz verstanden, welcher der genannten Ansätze der von Townsend & Ashby vorgeschlagene ist. Den, den du LIE genannt hast? :)
Was Ihren Vorschlag betrifft, die logistische Regression in jeder Bedingung auf RT zu modellieren. Meinen Sie die regressive Reaktion auf RT (oder eine Transformation davon), den Zustand und die Wechselwirkung davon? Dies sollte die Unterschiede in den Geschwindigkeits-Genauigkeits-Kompromissfunktionen erfassen, aber es scheint, dass ein solches Modell Unterschiede in der RT übersehen würde, wenn die SATF unter beiden Bedingungen gleich ist.
Pavel, die LIE ist mein eigener Vorschlag für eine verbesserte Implementierung der von T&A vorgeschlagenen Transformation, die jetzt nur als rt in ms / acc (Proportion - der IE-Score) erfolgt. Der Vorschlag für die logistische Regression reagiert empfindlich auf rt, da Sie dann die Genauigkeit bei einem festen rt analysieren, indem Sie vorhergesagte Werte aus der Regression verwenden. Wenn die RT variiert, aber die SAT gleich geblieben ist, wird sich dies in unterschiedlichen Genauigkeitswerten bei dieser RT widerspiegeln.
Ja richtig. Ich denke, man könnte sich theoretische Situationen mit nicht-monotonen SATFs einfallen lassen, aber eine logistische Regression dieser Art sollte für die meisten praktischen Zwecke gut funktionieren, denke ich. Danke.
@John: Könnten Sie einen Verweis auf ein praktisches Beispiel geben, in dem Autoren "die logistische Regression auf RT in jeder Bedingung modelliert haben"? Ich würde das wirklich zu schätzen wissen.
Ich kenne keinen. Ich glaube, es gab keine IE-Scores, bis Enns es zum ersten Mal benutzte. Ich habe es danach in meiner Diplomarbeit verwendet und es IE-Scores genannt. Warum nicht der Erste sein?

Ein weiterer möglicher Ansatz ist die Verwendung des von Wagenmaker, van der Mass und Grasman (2007) vorgeschlagenen EZ-Diffusionsmodells . Zitat von Brown & Heathcote (2008; S. 4) :

Dieses Modell ist extrem einfach, mit nur einer Variabilitätsquelle in der Evidenzakkumulation – Zufälligkeit innerhalb der Studie – und einfacher linearer Akkumulation (obwohl Evidenz für eine Antwort gegen die andere zählt). Das EZ-Diffusionsmodell ist noch einfacher als das LBA, aber es ist unvollständig. Wagenmakers et al. schlugen die EZ-Diffusion eher als deskriptives als als Prozessmodell vor, mit dem Ziel, Daten so einfach wie möglich angemessen zu beschreiben. Der Nachteil bei der Entwicklung eines so einfachen Modells war, dass es einige der empirischen Phänomene bei der Auswahl von RT nicht berücksichtigen konnte, wie z. B. die relative Geschwindigkeit von richtigen gegenüber falschen Antworten.

Ich hatte kürzlich ein ähnliches Problem und habe Inverse-Efficiency-Scores (IE) verwendet. Diese Werte wurden abgeleitet, indem die Antwortzeiten durch die richtigen Antwortquoten separat für jede Bedingung dividiert wurden, wobei dies so durchgeführt wurde, dass die Leistung umso schlechter war, je höher der Wert war. Sie erhalten also so etwas wie "korrigierte Reaktionszeit" -Werte. Hier ist ein Beispiel für Papier, das es verwendet – siehe Experiment 2 auf Seite 144:

Petrini, K., McAleer, P., & Pollick, FE (2010). Die audiovisuelle Integration emotionaler Signale aus der Musikimprovisation ist nicht von zeitlicher Übereinstimmung abhängig . Hirnforschung , 1323 , 139-148.

Leider setzt die umgekehrte Effizienz eine bestimmte Skalierung von RT und Fehlerrate voraus, die vollständig nicht unterstützt wird. Sogar Dr. John Christie, ein Kollege von mir, der dem IE seinen Namen gegeben hat, ist inzwischen dazu übergegangen, seine Verwendung vollständig abzulehnen.
Gut zu wissen, @Mike, danke. Ich werde IBA eine Chance geben, wenn ich mich damit auskenne. Es ist jedoch interessant, dass Sie in wenigen Artikeln, die die multisensorische Integration emotionaler Informationen untersuchen (obiger Artikel und dieser andere Artikel ), die Verwendung von IE als Standardverfahren finden können ...
Ich vermute, dass der IE in einigen Bereichen zum Teil leider zum Standard geworden ist, weil er sich irgendwie intuitiv anfühlt und sicherlich eine einfache "Lösung" für das ärgerliche Problem der Kombination von Geschwindigkeit und Genauigkeit ist. Zugegeben, ich habe keine Daten, die explizit die Ungültigkeit der vom IE angenommenen Geschwindigkeits-Genauigkeits-Skalierung demonstrieren (obwohl ich jetzt denke, dass ich einen Studenten beauftragen werde, diese Daten diesen Sommer durch Simulationen zu generieren), aber es würde ziemlich bemerkenswert erscheinen, wenn die als gültig erweist sich eine einfache IE-Skalierung, die die Genauigkeit zumindest eher fragwürdig proportional modelliert (vgl. Dixon, 2008, "Models of precision...").
Ich denke, nachdem ich in der Gegenwart zahlreicher Menschen war, die es benutzten, einschließlich mir, ist es üblich geworden, weil es Ihre Wirkung verstärken und das sehr schwer zu erklärende SAT verschwinden lassen kann. Beides sind keine guten Gründe, etwas zu tun.

Wie in den anderen Kommentaren erwähnt, ist ANOVA problematisch, wenn Typen von Prädiktorvariablen gemischt werden. (Verallgemeinerte) Modelle mit gemischten Effekten werden heutzutage immer beliebter und bieten tatsächlich eine sehr bequeme Möglichkeit, solche Dinge zu modellieren. Ein Artikel, der die Wirksamkeit dieses Ansatzes demonstriert und eine Tutorial-ähnliche Einführung gibt, ist:

Davidson, DJ und AE Martin (2013). Modellierungsgenauigkeit als Funktion der Reaktionszeit mit dem verallgemeinerten linearen Mixed-Effects-Modell. Acta Psychologica, 144:83–96.

Es gibt auch einen ähnlichen Beitrag auf CrossValidated.