Ist es wissenschaftlich fundiert, wiederholte Messungen zusammenzufassen?

Ich messe spezifische phenolische Verbindungen in Blättern von A. thaliana . Ich habe viele verschiedene Sorten und verschiedene Behandlungen. Anfangs habe ich ein Blatt pro Pflanze für drei Pflanzen für jede Behandlung gemessen, Sortenkombination (links im Beispielbild). Das Entnehmen von Blattstanzen ist der schnelle Teil, die eigentliche Verarbeitung der Proben ist sehr zeitaufwändig und geschwindigkeitsbegrenzend. Um meine Genauigkeit und meinen Durchsatz zu erhöhen, wäre es schön, wenn ich mehr als 3 Pflanzen pro Behandlung und Sortenkombination beproben könnte! In diesem Fall sollte die Standardabweichung die Unterschiede zwischen Proben der gleichen Behandlung, Sortenkombination darstellen.

Daher entscheide ich mich jetzt dafür, die drei Proben von den drei verschiedenen Pflanzen aus derselben Behandlung und Sortenkombination zu mischen und dies zwei- oder dreimal zu wiederholen (rechts im Beispielbild). Auf diese Weise verliere ich Messungen an einzelnen Pflanzen, aber ich sollte immer noch den Durchschnitt meiner Kombination aus Behandlung und Sorte messen. Wenn ich auf diese Weise Messungen durchführe, bedeutet dies auch, dass ich mehr als 3 Pflanzen, zum Beispiel 6, in einer einzigen Probe zusammenfassen kann, während ich den gleichen Verarbeitungsaufwand hinterher habe. In diesem Fall sollte die Standardabweichung die Genauigkeit meiner Laborpraktiken darstellen, aber der Mittelwert liegt tatsächlich näher am wahren Mittelwert.

Meine Frage ist, ob dies wissenschaftlich fundiert ist?

Beispiel

Ich stimme dafür, diese Frage zu schließen, da sie für CrossValidated viel besser geeignet ist
Warum bündeln Sie die Proben mehrfach? Planen Sie unterschiedliche Analysen an den verschiedenen Proben?
Nachdem ich Sie gefragt habe, warum Ihrer Meinung nach die Umstände den Fall nicht ändern, schließe ich mich Ben Bolker an.
Ich fasse die Proben mehrmals zusammen, um eine Art Standardabweichung zu erhalten, wie gesagt, sie sollte den Unterschied zwischen den gepoolten Proben und/oder der Genauigkeit meines Assays darstellen

Antworten (2)

Wenn Sie die Konfiguration auf der linken Seite verwenden, spiegelt Ihre Varianz zwischen den Röhren die Varianz zwischen Individuen wider.

Wenn Sie die Konfiguration auf der rechten Seite verwenden, spiegelt Ihre Varianz zwischen den Röhrchen hauptsächlich die Varianz in Ihrem Assay wider (und vielleicht etwas die Varianz innerhalb eines Blattes).

Normalerweise führen Sie ein solches Experiment durch, weil Sie Ihre Ergebnisse auf eine größere Population extrapolieren möchten. Um dies gültig zu tun, müssen Sie in der Lage sein, die Varianz in der Grundgesamtheit aus Ihrer Stichprobe zu schätzen: die Varianz zwischen Individuen. Anhand Ihrer Konfiguration auf der rechten Seite können Sie feststellen, ob sich Ihre Beispiele intern unterscheiden, aber sie sagen Ihnen nicht viel darüber aus, was Sie außerhalb Ihres Beispiels erwarten können. Wichtig ist, dass eine Ausreißerpflanze alle Proben kontaminieren würde, zu denen sie beiträgt.

Beachten Sie, dass 3 Personen pro Gruppe wahrscheinlich eine zu schwache Stichprobe sind, es sei denn, Ihre Effektgrößen sind sehr groß, was bedeutet, dass Sie nicht genügend Beobachtungen haben, um einen echten Unterschied in Ihren Gruppen zu erkennen. Sie können dies nicht umgehen, indem Sie mehr Proben von denselben Personen nehmen, Sie benötigen mehr Personen.

Es gibt einige Fälle, in denen Sie möglicherweise einen Ansatz wie rechts verwenden, um Ihren Assay zu testen , jedoch nicht, um Schlussfolgerungen über Unterschiede in den Behandlungen zu ziehen .

Die Sprache, die wir in der Statistik verwenden, um diese Szenarien zu beschreiben, ist Unabhängigkeit . Damit beispielsweise ein ungepaarter t-Test gültig ist, müssen die Stichproben sowohl innerhalb als auch zwischen Gruppen unabhängig sein (dasselbe gilt für ANOVA-Äquivalente mit mehreren Gruppen). Im richtigen Szenario sind Ihre Stichproben nicht unabhängig: Jede Stichprobe, die einen Teil von „Blatt 1“ enthält, wird eine Beziehung zu jeder anderen Stichprobe haben, die einen Teil von „Blatt 1“ enthält. Wenn Sie diese Stichproben so behandeln, als ob sie unabhängig wären, brechen Sie die Annahme Ihrer Hypothesentests und können sich beim Vergleich von Gruppen nicht auf die Ergebnisse verlassen.


Angenommen, Sie möchten wissen, ob Gruppe A schwerer als Gruppe B ist. Das Verfahren auf der linken Seite ist wie das Wiegen jedes Mitglieds der Gruppe A und das Vergleichen dieser Gewichte an Mitglieder der Gruppe B.

Das Verfahren auf der rechten Seite ist so, als ob alle Mitglieder der Gruppe A auf einer Waage stehen, dann absteigen, dann alle wieder auf einer Waage stehen, dann absteigen usw. Sie haben die beste Messung, die Sie bekommen können, wie viel die Eine bestimmte Stichprobe von Gruppe A wiegt über verschiedene Messungen auf Ihrer Waage hinweg, aber Sie können Ihre Stichprobe von Gruppe A nicht verwenden, um abzuschätzen, wie viel Variation es in Population A gibt: Ihre Variation sagt Ihnen nur, wie zuverlässig Ihre Waage ist. Dies ist eindeutig ein sehr, sehr falsches Verfahren, das dem Ansatz entspricht, den Sie auf der rechten Seite Ihrer Frage vorschlagen. Gehen Sie nicht so vor, Sie verschwenden Ihre Zeit und Ihre Ergebnisse werden falsch sein; Wenn Sie die Tatsache verbergen, dass Sie diesen Ansatz gewählt haben, wird Ihre Arbeit betrügerisch sein.

Danke schön. Sie geben ein falsches Verfahren an, aber Sie sagen auch, dass es zum gleichen Ergebnis führt. In meinem Fall kann ich mit dem falschen Verfahren einen viel höheren und genaueren Durchsatz erzielen. Daher könnte diese Methode aus nichtwissenschaftlicher Sicht bevorzugt werden?
@Rivered Es gibt definitiv nicht das gleiche Ergebnis. Verwenden Sie nicht das rechts abgebildete Verfahren, um Ihre Gruppen zu vergleichen, Sie haben sonst Ihre ganze Zeit verschwendet oder einen glatten Betrug begangen. Ich bin mir nicht sicher, woher Sie die Idee haben, dass es das gleiche Ergebnis ist, aber wenn Sie aus meiner Antwort zitieren können, warum Sie dachten, dass ich es so schnell wie möglich ändern werde.
Ich nehme die Bemerkung aus Ihrer Aussage "es ist das gleiche Design wie". Auf jeden Fall verstehe ich Ihre Antwort, und Statistiken sind ohne Schwankungsschätzungen nutzlos. Der springende Punkt meiner Fragen war der Durchsatz, mit dem "falschen" Verfahren kann ich 10-mal mehr Proben messen, und obwohl die Varianz fehlt, wird der Gruppenmittelwert aufgrund der hohen Probenanzahl viel genauer sein.
@Rivered Im Analogieabschnitt beschreibe ich ein Verfahren, das sehr falsch ist, aber dem Design entspricht, das Sie auf der rechten Seite Ihrer Frage vorschlagen. Führen Sie dieses Verfahren nicht durch. Und nein, der Mittelwert, der so gemessen wird, wie Sie es vorschlagen, wird als Bevölkerungsschätzung nicht genauer sein. "Weniger Varianz zwischen Stichproben" bedeutet nicht, dass Ihr Mittelwert genauer ist, es bedeutet nur, dass Sie die Varianz falsch geschätzt haben.
Ich sage nicht, dass mein Mittelwert aufgrund der geringeren Varianz genauer ist! Ich sage, dass mein Mittelwert aufgrund der Fähigkeit, viel mehr Proben auf gepoolte Weise zu messen, genauer ist. Um es in Bezug auf Ihre Analogie auszudrücken, ich kann 100 Personen auf einer einzigen Waage platzieren, während ich aus Zeitgründen nur 3 Personen separat gewichten könnte. Der Mittelwert von 100 Personen wird dem wahren Wert viel näher kommen als der Mittelwert von nur 3 Personen?
@Rivered Das ist nicht das, was Ihre Frage darstellt. Wenn Sie eine neue Frage haben, ist stats.SE wahrscheinlich ein besserer Ort, um sie zu stellen.

Ihre Intuition ist hier weitgehend richtig. Die Kommentare von Bryan Krause konzentrieren sich darauf, wo Ihre Antwort falsch ist. Einige seiner Aussagen sind wahr, andere spekulativ. Seine Antwort, kombiniert mit Ihrer Intuition, könnte Ihre Messungen verbessern. Ich habe unten ein Pooling-Schema gezeigt. Es sollte die wichtigsten Ideen sowohl aus Ihrer Frage als auch aus Bryans Antwort ansprechen. Die beiden Schlüsselideen hier sind (i) dass Pooling die Schätzungen verbessern kann und (ii) dass wiederholte Messungen Ihnen einen Einblick in die Stichprobenvariation geben können.

Jede Beobachtung, die Sie machen, zeigt eine andere Menge der Phenolverbindung. Einiges davon ist auf tatsächliche Unterschiede in der Menge der Phenolverbindung zurückzuführen. Diese Unterschiede können zwischen Pflanzenfeldern, zwischen Blättern einer Pflanze, zwischen Stempeln von einem einzelnen Blatt bestehen. Die Liste geht weiter. Darüber hinaus erzeugt jede Messung einer einzelnen Probe einen anderen Messwert. Dies ist eine Menge zu berücksichtigen. Wenn Sie Statistiken verwenden möchten, sollten Sie deutlich machen, wie sich Ihre Stichprobe auf die Population bezieht, an der Sie interessiert sind.

Sie haben erwähnt, dass die Einnahme von Blattstanzen relativ einfach ist. Das Sammeln von Blattproben nutzt dies zu Ihrem Vorteil. Angenommen, Sie führen nur drei Messungen für Sorte A und drei Messungen für Sorte B durch. Für die erste Messung könnten Sie 9 Pflanzen der Sorte A anbauen und von jeder dieser Pflanzen 4 Schläge nehmen. Sie mischen diese Schläge zusammen und messen die Fülle Ihrer Phenolverbindung. Für die zweite Messung an Sorte A könnten Sie diesen gesamten Vorgang mit verschiedenen Pflanzen wiederholen. Der Unterschied zwischen diesen beiden Messungen spiegelt die Stichprobenvariation wider. Dies ist auf alle oben genannten Quellen und andere zurückzuführen. Die Anzahl der Pflanzen zu verringern, die Sie zusammenfassen, löst das Problem der Stichprobenvariation nicht.

Aus statistischer Sicht kann uns das Pooling eine Durchschnittsbildung ermöglichen. Sagen wir Schläge ich = 1 , 2 , , N werden der Sorte A entnommen. Sie werden als volumengleiche Proben hergestellt. Die entsprechende Konzentration der phenolischen Verbindung in jeder Probe ist A ich . Das Mischen dieser Lösungen ergibt eine Probe mit Konzentration A ¯ N . Die Formel für diese Konzentration kann aus der jeweiligen Konzentration erhalten werden A ich folgendermaßen

A ¯ N = 1 N ich = 1 N A ich
Diese Konzentrationen wären anders, wenn wir das Experiment mit einer neuen Stempelprobe wiederholen würden. Um dies zu erfassen, können wir sie als Zufallsvariablen behandeln.

Wir möchten zeigen, dass Pooling die Varianz von verringert A ¯ N . Um zu sehen, wann dies passieren kann, beachten Sie

Var [ 1 N ich A ich ] = 1 N ( 1 N ich Var [ A ich ] ) + 2 N 2 ich < J Cov ( A ich , A J )
Der führende Faktor von 1 N ist hier ein Schlüsselbegriff. Es hat das Potenzial, die Varianz bei der Anzahl der Schläge klein zu machen N ist groß. Dies unterstreicht den Vorteil des Poolings und stimmt mit Ihrem Vorschlag überein.

Eine Pooling-Strategie . Jedes Röhrchen misst eine Mischung, die mit mehreren Schlägen erstellt wurde. Jeder Schlag wird in einem einzigen Rohr gemessen.Pooling-Schema

Danke, ich glaube, ich verstehe die Kernaussage in deiner Geschichte :). Das heißt, für eine einzelne Behandlung/Genotyp-Kombination könnte ich drei Messungen durchführen, wobei jede Messung gepoolte Proben mehrerer einzigartiger Pflanzen enthält!