Analysieren von Kontrollfragendaten für eine Umfrage

Ich habe eine experimentelle Studie mit einer Liste demografischer und verwandter Fragen und um Daten von Teilnehmern zu identifizieren, die die Fragen möglicherweise nur nach dem Zufallsprinzip beantwortet haben (um schneller durchzukommen, würde ich annehmen), habe ich zwei sehr ähnliche 7 eingeschlossen -Stellen Sie Likert-Skalenfragen an verschiedenen Stellen in der Umfrage. Meine Annahme wäre, dass, da die Fragen reflektierend sind, die Antworten der Teilnehmer zwischen den beiden Fragen zumindest etwas ähnlich sein sollten (z. B. sollte es sehr unwahrscheinlich sein, dass ein Teilnehmer auf eine Frage 7 und auf die andere 1 antwortet).

Ich habe die Daten noch nicht gesammelt, hätte aber gerne eine Methode, um anhand dieser Kontrollfragen zu bestimmen, welche Datensätze verdächtig sind (können bei der Analyse ausgeschlossen werden). Eine Methode könnte darin bestehen, einfach zu bestimmen, wo die Daten in eine Gaußsche Verteilung passen. Ich denke jedoch, dass die begrenzte Trennschärfe einer 7-Punkte-Skala dies zu einem ungeeigneten Test machen würde. Meine andere Idee war, eine Clusteranalyse der Daten durchzuführen und nach fünf Gruppen zu suchen: drei entlang der Korrelationslinie (zwischen den Fragen) und zwei, um ungewöhnlich hohe/niedrige und niedrige/hohe Werte zu untersuchen. Ich dachte, dies könnte bessere Vorschläge dafür liefern, welche Datensätze ungewöhnlich sein könnten, da es keine etwas willkürlichen Vergleiche verwenden würde, sondern nur die angegebenen Daten.

Ich würde mich sehr über Vorschläge für eine bessere Methode oder Verbesserungen freuen, die ich machen könnte, sowie über Kommentare zu mehr "Standard" -Praktiken in diesem Bereich, da ich etwas neu in der Forschung bin.

Ich weiß nicht, was Ihre Kontrollfragen sind, aber Sie sollten bedenken, dass Fragen, die (für Sie) eine ähnliche Bedeutung haben, Ihren Themen möglicherweise nicht so ähnlich erscheinen. Außerdem kann es zu Positionierungseffekten (Priming) im Zusammenhang mit vorangegangenen Fragen kommen. Sie sollten Ihren Fragebogen mit aufmerksamen Probanden in einer genau überwachten Umgebung testen und sehen, ob die Kontrollfragen tatsächlich gleich gut abschneiden. Wenn es auch nur eine geringfügige Abweichung in diesem Test von Ihrem Test gibt, sollten Sie äußerst vorsichtig sein, wie Sie eine größere Abweichung in einer Situation interpretieren, die Sie nicht genau überwachen.

Antworten (3)

Sie scheinen sich Sorgen um Zuverlässigkeit zu machen , und insbesondere um interne Zuverlässigkeit . Interne Reliabilität ist der Grad, in dem verschiedene Fragen dasselbe Konstrukt messen. Dieses Konzept wird häufig in der Psychologie verwendet und normalerweise mit Cronbachs Alpha gemessen . Es wird jedoch normalerweise verwendet, um die Zuverlässigkeit eines Tests und nicht die Zuverlässigkeit einer Person zu messen .

Wie Jeromy Anglim betont, denke ich, dass es wichtig ist, hier das Ziel zu berücksichtigen. Die Verwendung einer Zwei-Fragen-Likert-Skala ist wahrscheinlich nicht gut genug, um Ausreißer zuverlässig zu erkennen: Was wäre, wenn der Befragte alle „4“ auf einer 7-Punkte-Likert-Skala angekreuzt hätte? Eine Umkehrung der Skala hätte keine Auswirkung.

Ein alternativer Ansatz ist der Einsatz eines Instructional Manipulation Check (Oppenheimer et al., 2009). Der Kern der Technik besteht darin, die Teilnehmer dazu zu bringen, eine Frage auf eine bestimmte Weise zu beantworten, die sie nur hätten tun können, wenn sie die Anweisungen sorgfältig gelesen hätten. Hier ist ein Beispiel aus einer von Facebook verwalteten Umfrage:

Geben Sie hier die Bildbeschreibung ein

Auch wenn diese Technik einige gute Teilnehmer verwerfen kann, wird sie mit ziemlicher Sicherheit das Signal-Rausch-Verhältnis Ihrer Daten erhöhen, indem nur Teilnehmer einbezogen werden, die Anweisungen befolgt und Fragen gelesen haben, bevor sie beantwortet haben.

Eine andere erprobte Technik besteht darin, einen computergesteuerten Test zu verwenden und die Reaktionszeiten zu betrachten. Möglicherweise können Sie einige Antworten (oder ganze Teilnehmer) verwerfen, indem Sie einfach nach Ausreißern in der Antwortzeit suchen, die unter dem Mittelwert liegen.

Oppenheimer, DM, Meyvis, T., & Davidenko, N. (2009). Instruktions-Manipulationsprüfungen: Erkennung von Satisficing zur Steigerung der statistischen Aussagekraft. Zeitschrift für experimentelle Sozialpsychologie, 45 (4), 867-872.

"Interne Zuverlässigkeit testet, inwieweit verschiedene Fragen dasselbe Konstrukt messen" scheint nicht ganz richtig zu sein. Sie können 2 zugrunde liegende Dimensionen haben und ein hohes Cronbachs Alpha haben. Siehe: psycnet.apa.org/journals/pas/8/4/350
@RJ das bedeutet, dass Cronbachs Alpha möglicherweise nicht die interne Zuverlässigkeit misst, nicht dass die Definition der internen Zuverlässigkeit falsch ist. Laut dem von Ihnen zitierten Papier bezieht sich "interne Konsistenz auf die Wechselbeziehung einer Reihe von Elementen", was mit dem übereinzustimmen scheint, was ich sage.
Mir geht es hauptsächlich um die "Messung des gleichen Konstrukts". Das Papier weist auch darauf hin, dass „das Messen desselben Konstrukts“ sich von „Verwandtschaft“ unterscheidet, was Cronbachs Alpha misst.
Ah, vielleicht sollte ich den Wortlaut ändern in "Interne Zuverlässigkeit ist der Grad, in dem ..." und "Cronbachs Alpha- Tests ..." Ich kann sehen, dass meine Definition nicht mit dem übereinstimmt, was Cronbachs Alpha testet , aber denke trotzdem Es ist eine genaue Beschreibung dessen, was interne Zuverlässigkeit ist .
Das Beispiel FB ist eher problematisch. Der Text unter „fast fertig“ bezieht sich visuell nicht auf die folgenden zwei Fragen, und die Bedeutung von „fast fertig“ signalisiert keine relevanten Anweisungen. Ich würde es niemals in meinem Leben lesen, und ich brauchte eine gute Minute, um die Natur dieses Beispiels zu verstehen! Dies würde nur funktionieren, wenn die Anweisungen zwischen der Frageüberschrift und der Frage platziert würden.
@was das ist irgendwie der Punkt. Viele Psychologieexperimente enthalten Textblöcke, die erklären, wie man die folgenden Fragen beantwortet. Es ist wichtig, dass Sie sie lesen, um sie richtig zu beantworten. Wenn Sie Abschnitte überspringen, von denen Sie "keine relevanten Anweisungen erwarten", dann überspringen Sie möglicherweise relevante Anweisungen. Beispiel die Facebook-Umfrage. Dies ist jedoch nicht das einzige Beispiel für einen IMC; Versuchen Sie auch, die Oppenheimer-Referenz zu lesen, oder führen Sie eine Gelehrtensuche nach "Instructional Manipulation Check" durch
@ Jeff Ich (glaube ich) verstehe, aber aus meiner Sicht muss eine gute Umfrage die Grundregeln des Designs von Benutzeroberflächen einhalten. Eine Überschrift bedeutet, dass etwas Neues kommt. Das lernen wir ab der Grundschule. Sie können damit nicht einfach Komponenten verbinden. Die Anweisung für eine Frage gehört zwischen die Überschrift einer Frage und die Frage selbst oder neben die Frage. Sie können nicht einfach die Erwartungen der Benutzer brechen, die durch das Ausfüllen von Tausenden von Online-Formularen und das Lesen von Büchern und Zeitschriften aufgebaut wurden, und erwarten aussagekräftige Ergebnisse.
Ich stimme zu, dass eine gute Benutzeroberfläche wichtig ist. Es gibt viele Gründe, warum ein Teilnehmer Anweisungen nicht befolgt, und eine schlechte Benutzeroberfläche ist einer davon. Aber aus Sicht des Datenanalysten spielt es wirklich keine Rolle, was der Grund ist. Das IMC erkennt, dass die Anweisungen aus irgendeinem Grund nicht befolgt werden.
Nebenbei bemerkt gelten in vielen Experimenten Anweisungen für einen Fragenblock. Es ist nicht möglich, Anweisungen zwischen eine Frage und ihre Antworten einzufügen. Ich stimme zu, dass die Überschrift selbst "Fast fertig!" ist Füllmaterial, was wahrscheinlich dazu führt, dass viele Leute diesen Abschnitt überspringen. Es sollte wahrscheinlich "Anweisungen" heißen. Aber ich denke nicht, dass die Platzierung eines der Elemente hier ein Problem darstellt. In jedem Fall ist dies eine Debatte für Chat oder ux.SE und hat meiner Meinung nach keinen Einfluss auf meine Antwort.
Sie haben Recht, die Idee hinter Ihrer Antwort ist perfekt (und ich habe sie positiv bewertet). Das Problem ist, dass die Frage so formatiert ist, dass sie als Überschrift auf derselben semantischen Ebene wie die Abschnittsüberschrift erscheint ("Fast fertig").
(-1) Ich denke, das ist ein schrecklicher Rat. Die Frage bezieht sich nur am Rande auf die Zuverlässigkeit. Cronbach alpha, abgesehen davon, dass es viel weniger nützlich ist als gewöhnlich angenommen und oft falsch interpretiert wird, spricht es überhaupt nicht an. Alpha, interne Konsistenz oder Zuverlässigkeit tauchen alle auf, wenn eine Skala erstellt oder interpretiert wird, und können nur über eine Reihe von Bewertungen berechnet werden. Nichts davon hilft bei der Auswahl von Beobachtungen .
Der einzig relevante Teil ist die Facebook-Fallenfrage, aber es sieht so aus, als wäre die Heilung hier schlimmer als die Krankheit. Sie riskieren, eine große Anzahl aufrichtiger Befragter zu verwirren (und Sie können sicherlich nicht davon ausgehen, dass die „guten“ Befragten, die Sie ausschließen, zufällig ausgewählt werden, sodass Sie nicht nur die Aussagekraft und die Stichprobengröße verringern, sondern auch Verzerrungen einführen), um einen Vorteil zu erzielen sehr zweifelhaft.
Forscher neigen dazu, sich darüber Sorgen zu machen, aber ich muss noch Beweise dafür finden, dass Satisficing im Allgemeinen ein so großes Problem ist (ich sehe es in meiner Forschung nicht und ich habe alle möglichen psychologischen Experimente mit Studenten durchgeführt, Usability-Tests, lange Interviews mit Menschen jeden Alters, Crowdsourcing-Studien zu Mechanical Turk, Internetumfragen in mehr als einem Dutzend Ländern usw.)
@GaëlLaurans Ich schlage hier nicht die Verwendung von Cronbachs Alpha vor. Ich habe es erwähnt, weil es so aussieht, als wäre dies die Lösung, die OP zu verwenden versuchte , aber wie ich in meinem Beitrag sagte, ist es hier unangemessen. Was das Facebook-Beispiel betrifft – nehmen Sie es nicht zu wörtlich. Ich fördere die allgemeine Idee hinter einem IMC und befürworte keine spezifische Implementierung. Wahrscheinlich gibt es wirksamere Beispiele.
Was die Frage der Zufriedenheit betrifft, beantworte ich einfach die Frage des OP. Er ist darüber besorgt, und andere Forscher haben ebenfalls Bedenken geäußert. Ich habe nie behauptet, dass es sich um ein weit verbreitetes Problem handelt, aber es scheint zumindest unter bestimmten Umständen ein Problem zu sein.

Zufälliges Antworten verhindern: Ein wichtiger erster Schritt besteht darin, darüber nachzudenken, wie man verhindern kann, dass zufälliges Antworten überhaupt erst auftritt. Einige Ideen sind: Führen Sie die Umfrage von Angesicht zu Angesicht durch; einen experimentellen Betreuer anwesend haben; den Teilnehmern die Wichtigkeit der Forschung und die Wichtigkeit, dass die Teilnehmer die Forschung ernst nehmen, zu vermitteln; finanzielle Vergütung verwenden.

Allerdings gibt es Situationen, in denen Teilnehmer beispielsweise eine Studie nicht ernst nehmen und zufällig antworten. Dies scheint insbesondere bei der Online-Datenerfassung ein Problem zu sein.

Allgemeiner Ansatz : Mein allgemeiner Ansatz dazu besteht darin, mehrere Indikatoren für problematische Partizipation zu entwickeln. Ich werde dann jedem Teilnehmer basierend auf der Schwere der Indikatoren Strafpunkte zuweisen. Teilnehmer mit Strafpunkten über einem Schwellenwert werden von Analysen ausgeschlossen.

Die Auswahl dessen, was problematisch ist, hängt von der Art der Studie ab:

  • Wenn eine Studie von Angesicht zu Angesicht durchgeführt wird, kann der Experimentator Notizen machen, wenn die Teilnehmer problematisches Verhalten zeigen.
  • Bei Studien im Stil von Online -Umfragen zeichne ich die Reaktionszeit für jedes Element auf. Ich sehe dann, wie viele Items schneller beantwortet werden, als die Person das Item überhaupt lesen und beantworten könnte. Beispielsweise zeigt die Beantwortung einer Persönlichkeitstestaufgabe in weniger als etwa 600 oder sogar 800 Millisekunden an, dass der Teilnehmer eine Aufgabe übersprungen hat. Ich zähle dann, wie oft dies vorkommt, und lege einen Grenzwert fest.
  • Bei leistungsbasierten Aufgaben können andere Aktionen der Teilnehmer Ablenkung bedeuten oder die Aufgabe nicht ernst nehmen. Ich werde versuchen, Indikatoren dafür zu entwickeln.

Die Mahalanobis-Distanz ist oft ein nützliches Werkzeug, um multivariate Ausreißer zu kennzeichnen. Sie können die Fälle mit den größten Werten weiter untersuchen, um zu überlegen, ob sie sinnvoll sind. Es ist eine Kunst, zu entscheiden, welche Variablen in die Entfernungsberechnung einbezogen werden sollen. Insbesondere wenn Sie eine Mischung aus positiv und negativ formulierten Items haben, wird Nachlässigkeit oft durch eine mangelnde Bewegung zwischen den Polen einer Skala angezeigt, wenn Sie von positiv zu negativ formulierten Items wechseln.

Im Allgemeinen füge ich am Ende des Tests auch oft Items ein, in denen die Teilnehmer gefragt werden, ob sie das Experiment ernst genommen haben.

Diskussion in der Literatur

Osborne und Blanchard (2010) diskutieren Random Response im Zusammenhang mit Multiple-Choice-Tests. Sie erwähnen die Strategie, Items einzufügen, die alle Teilnehmer richtig beantworten sollten. Zitieren

Das können Inhalte sein, die man nicht verpassen sollte (z. B. 2+2=__), Verhaltens-/Einstellungsfragen (z. B. ich webe den Stoff für alle meine Klamotten), unsinnige Dinge (z. B. Februar hat 30 Tage), oder gezielte Multiple-Choice-Testaufgaben [z. B. „Wie schreibt man ‚Forensik‘?“ (a) fornsis, (b) forensics, (c) phorensicks, (d) forensix].

Verweise

Wie verwenden Sie bei Umfragen einen „Aufseher“ oder „machen Notizen, wenn Teilnehmer problematisches Verhalten zeigen“, ohne die Anonymität des Teilnehmers zu verletzen?
@RyanLang Die Anonymität wird gewahrt, solange den Daten keine identifizierenden Informationen beigefügt sind. Sie können Informationen zum Thema, wie z. B. ungewöhnliches Verhalten, notieren, um Ihre Daten aussagekräftiger zu machen. Wenn Sie zB zur Kenntnis nehmen, dass ein Proband betrunken erscheint, kann dies dazu beitragen, seine langsamen Reaktionszeiten zu erklären, und Ihnen besser helfen, die Daten auszuschließen. Bedenken Sie, dass Daten in der Regel nicht von derselben Person erhoben werden, die sie auswertet, und dass sich beide möglicherweise von der Person unterscheiden, die eine Studie erstellt. Ich würde so weit gehen zu sagen, dass es ein Muss ist, alles Ungewöhnliche an einem Probanden zu notieren.
Was Sie normalerweise von den Daten trennen müssen, sind Namen, Adressen, Geburtsdaten usw., die mehr oder weniger eindeutig für eine Person sind. Sie können diese sogar innerhalb Ihrer Daten sammeln, wenn sie für Ihre Forschung notwendig sind, aber Sie müssen mit diesen Informationen äußerst vorsichtig umgehen und sie löschen, sobald sie nicht mehr verwendet werden. Normalerweise entscheidet Ihre Ethikkommission, ob sie die Erfassung dieser Informationen in Ihren Daten erlaubt. (Dies ist deutsches Recht. Das Recht anderer Länder wird sicherlich anders sein.)
@Jerome Die Verwaltung der Einstellung der Probanden zur Testdurchführung ist ein wichtiger Teil des Testdesigns. Gute Praktiken sind: (1) Interesse an den Themen wecken, indem eine ansprechende Erklärung („Geschichte“) und, wenn möglich, ein relevantes Ergebnis bereitgestellt werden (z. B. Ergebnisse zeigen oder diskutieren, die sie wissen möchten); (2) freundlich sein (dies kann und muss auch bei Online-Umfragen geschehen); (3) Erstellen Sie kurze Tests, die Ihre Probanden nicht ermüden oder langweilen; (4) machen Sie Ihren Test optisch ansprechend und einfach zu „parsen“; (5) fragen Sie Ihre Großmutter, ob sie Ihre Fragen versteht; (6) zahlen nicht für die Teilnahme

Dies ist keine direkte Antwort auf Ihre Frage, aber im Einklang mit meinen Kommentaren zu einer anderen Antwort wäre mein wichtigster Ratschlag: „Machen Sie sich keine Sorgen“.

Die Tipps von Jeromy Anglim sind alle gut, aber ich bin immer noch nicht davon überzeugt, dass dies für die meisten Menschen ein wichtiges Thema ist. Da Sie neu in der Forschung sind, gibt es wahrscheinlich Dutzende anderer Dinge, über die Sie sich Sorgen machen sollten.

Wenn Sie Anzeichen dafür sehen, dass es ein Problem gibt (extrem kurze Antwortzeiten, widersprüchliche Antworten, viele Befragte, die absurde Antworten auf offene Fragen geben), würde ich argumentieren, dass Sie zuerst einen Schritt zurücktreten und sich fragen sollten, ob was Sie tun ist sinnvoll (Ist die Aufgabe sinnvoll? Kann von den Leuten erwartet werden, dass sie eine Meinung zu dem Thema haben, das Sie untersuchen? Fordern Sie zu viel Aufwand?), anstatt zu versuchen, „schlechte“ Befragte auszusortieren.

Wenn Sie sich wirklich mit dem Thema beschäftigen und Literatur nachschlagen möchten, ist ein anderer Name für dieses Phänomen „Satisficing“. „Antwortsatz“ ist eine verwandte Idee, die von Interesse sein könnte.

einverstanden, dies sollte auf jeden Fall ein erster Schritt sein, bevor das "Problem" "behoben" wird