Manipulieren der Schwierigkeit, eine Korrelation zu erraten

Ich versuche, Korrelationen zwischen Zufallsvariablen (zweidimensional) mit einer definierten linearen Beziehung (in der r Sinn), aber mit unterschiedlichen visuellen Mustern beim Plotten. Ich versuche, eine Aufgabe zum Erraten der Korrelation zu erstellen, bei der ich systematisch die Schwierigkeit für einen Beobachter manipulieren kann, die lineare Beziehung zu erraten.

Was ich jetzt tue, ist eine Korrelation gegeben r Ich erzeuge den ersten und zweiten Wert, X 1 und X 2 , mit n Stichproben aus der Standardnormalverteilung. Dann mache ich von dort aus X 3 eine Linearkombination aus beiden X 3 = r X 1 + 1 r 2 X 2

Dann: Y 1 = μ 1 + σ 1 X 1 , Y 2 = μ 2 + σ 2 X 3

Und nun Y 1 und Y 2 Zusammenhang haben r .

Zur Manipulation der Schwierigkeit habe ich mit den Parametern der Verteilung gespielt und n , jedoch bin ich mit den Ergebnissen nicht zufrieden.

Haben Sie eine Idee, wie Sie die Schwierigkeit der Aufgabe systematisch erhöhen können? (zB Hinzufügen von Ausreißern usw.).

Hinweis: Die Schwierigkeit ist eher eine kognitive/psychologische als eine statistische Frage. Ich beabsichtige, den Begriff der Schwierigkeit empirisch zu testen (dh unter bestimmten Parameterkombinationen schneiden Menschen tendenziell schlechter ab). Die Idee besteht darin, Diagramme mit variierenden Parametern für einen bestimmten Korrelationswert zu erstellen (dh Änderung der Anzahl der Punkte, der Varianz, des Ausreißers, der funktionalen Form usw.). Was sind die Parameter und was wäre ein systematischer Weg, sie zu manipulieren?

Obwohl Absichten kognitiv sind und ich die Frage wirklich mag, glaube ich, dass Sie bei Cross Validated die besten Chancen haben, eine Antwort zu finden . Ich werde die Frage markieren und sehen, ob Moderatoren sie migrieren können. Die Frage dort drüben wird dann weiterhin mit dieser Website verlinkt, um sie leichter auffindbar zu machen.
@ Robin Ich bin teilweise anderer Meinung. Die Frage ist, wie man die kognitive Aufgabe, eine Korrelation aus einem Scatterplot zu erraten, schwieriger gestalten kann. Vielleicht hätten Statistiker Einblicke, aber ich stelle mir vor, dass es auch eher eine psychologische Frage ist.
Ich nehme an, Sie wissen davon? ratethecorrelation.com
@JeromyAnglim Du hast Recht. Ich las die Frage als "Wie simulieren Sie Korrelationen?" und dachte, es sei eher eine Codierungsfrage.

Antworten (1)

Wahrscheinlich müssen Sie Pilotversuche durchführen, um die Schwierigkeit einer gegebenen Korrelationsaufgabe zu ermitteln.

Aus Pilottests müssten Sie die Schwierigkeit der Aufgabe quantifizieren. Eine Möglichkeit wäre die mittlere Abweichung zwischen tatsächlicher und prognostizierter Korrelation. Es gäbe jedoch andere Metriken sowohl für den Grad des Fehlers als auch für den Schwierigkeitsgrad.

Ich würde die Hypothese aufstellen, dass die anhand von Streudiagrammen am einfachsten zu erratenden Korrelationen starke lineare Beziehungen mit bivariaten Normalverteilungen und vielen Daten (z. B. n > 1000) wären.

Es gibt eine ganze Reihe von Dingen, die Sie ausprobieren könnten, um die Aufgabe schwieriger zu machen. Folgendes fällt mir dazu ein:

  • Ausreißer (sowohl Ausreißer, die die Korrelation erhöhen, als auch Ausreißer, die die Korrelation verringern); die Anzahl der Ausreißer in einer bestimmten Region variieren; Kombinieren Sie Ausreißer, die die Korrelation erhöhen und verringern; Ausreißer noch extremer machen
  • Nichtlineare Beziehungen (z. B. Mischungen aus linearen und anderen Funktionen wie quadratisch, zyklisch, schrittweise; Potenzfunktionen, logistische Funktionen, kreisförmig usw.)
  • bimodale Verteilungen auf eine oder beide Variablen
  • Stark schiefe Verteilungen bei einer oder beiden Variablen
  • Weniger Datenpunkte
  • Daten, die Korrelationen nur wenig über oder unter Null ergeben
  • wo es eine Funktion wie eine quadratische Funktion gibt, machen Sie x von y abhängig, anstatt y von x abhängig zu machen.

Ganz allgemein denke ich, dass auch Übungs- und Rückkopplungseffekte relevant sein werden. D. h., es kann relevant sein festzustellen, ob die Unterschiede im Schwierigkeitsgrad bei Anfängern auch den relativen Unterschieden im Schwierigkeitsgrad bei Teilnehmern entsprechen, die der gesamten Bandbreite der von Ihnen generierten Items ausgesetzt waren.