So können Sie vorhersagen, wie viele Daten zu sammeln sind

Die gleiche Frage zu CrossValidated

Entschuldigen Sie, wenn ich mich im Folgenden etwas vage ausdrücke, ich wurde gebeten, bestimmte Aspekte des Experiments vorerst vertraulich zu behandeln.

Ein analoges Experiment wäre wie der Versuch, das Auf und Ab der Flut (Periode von 0,5 Tagen) zu „sehen“, indem man einen Photonendetektor auf dem Grund des Ozeans platziert (obwohl dies natürlich nicht funktionieren würde und dumm ist, aber das Prinzip ist zumindest ziemlich ähnlich.) Hoffe, das verdeutlicht es ein wenig, lass es mich wissen, wenn nicht.

Ich befinde mich derzeit in der Planungsphase dieses Experiments, von dem ich hoffe, dass es innerhalb eines angemessenen Zeitrahmens (idealerweise weniger als 6 Monate) eine Signalvariation (relative Größe) von 0,155% erkennt. Ich habe die Rate der (verwendbaren) Daten berechnet werden etwa 68 Ereignisse pro Tag sein, obwohl betont werden sollte, dass dies eine Zufallsvariable ist. Jetzt versuche ich herauszufinden, wie viele Tage ich den Detektor laufen lassen muss, um die Variation mit einem Konfidenzniveau von 3σ zu sehen?

Einige andere Details, die relevant sein können (oder auch nicht), sind: Es wird erwartet, dass die Schwankung des Signals sinusförmig mit einer Periode von 0,5 Tagen ist. Aus diesem Grund habe ich meine Nutzereignisrate auf 34 (d. h. die Hälfte) reduziert, da eindeutig keine Veränderung zu sehen ist, wenn das Sinussignal auf oder nahe dem Mittelwert liegt.

Ich habe nach einer Methode gegoogelt, um die Größe eines Datensatzes vorherzusagen, der erforderlich ist, um eine so kleine Signalvariation zu sehen, bin aber auf nichts gekommen. Ich wäre sehr dankbar für alle Hinweise / Tipps, die jemand anbieten könnte.

Kennen Sie die Phase der sinusförmigen Variation (dh treten dann Maxima und Minima auf?) Planen Sie, das Signal durch Anpassung an eine Sinusfunktion mit bekannter Phase, aber unbekannter Amplitude zu suchen? Sollen Ihre Ereignisse Poisson-verteilt sein? In jedem Fall müssen Sie, wenn Sie mehr als nur eine Faktor-von-ein paar-Schätzung wünschen, Ihre Daten möglicherweise simulieren und sie durch den Analysealgorithmus laufen lassen, den Sie verwenden möchten.
Ich habe zwei Ratschläge. Erstens: Fragen Sie einen Mathematiker, der sich besonders auf Statistik konzentriert, denn Ihre Aufgabe ist die Approximation einer Funktion. Der zweite Rat stammt vielleicht aus dem 19. Jahrhundert, aber wenn nichts anderes funktioniert, können Sie täglich Schwankungen und andere statistische Parameter berechnen und entscheiden, wann Sie aufhören.
Zuerst spricht man über das Messen eines Signals, dann über das Zählen von Ereignissen. Welches ist es? Außerdem erhalten Sie möglicherweise bessere Antworten auf crossvalidated.SE.
Das ist eine gute Frage, aber sie gehört definitiv zu stats.SE
@Ted Bunn: Ja, theoretisch wäre es mir möglich, die gesammelten Daten (mit Zeitstempel versehene Erkennungsereignisse) mit einer bekannten Phase abzugleichen. In der Praxis kann dies etwas schwieriger sein, da die Phase nicht ganz konstant ist und regelmäßige Anpassungen erfordern würde. Leider wird der Detektor an einer etwas schwer zugänglichen Stelle platziert, so dass die praktischen Umstände des regelmäßigen Zugriffs mich daran hindern könnten. In Bezug darauf, ob die Ereignisse Poisson-verteilt sind, bin ich mit der Wissenschaft / Statistik von Wohnmobilen nicht übermäßig vertraut, aber nachdem ich es nachgeschlagen habe, habe ich das Gefühl, dass die Ereignisrate hier höchstwahrscheinlich ist.

Antworten (2)

Ich glaube nicht, dass du das in sechs Monaten schaffst.

Ich werde unten eine Berechnung geben, aber zuerst eine Schätzung der Größenordnung. Wenn Sie insgesamt erkannt haben N e v e N T S Ereignissen hat Ihre Messung einer Modulation einen Ordnungsfehler N e v e N T S 1 / 2 -- -- diese Dinge tun es immer! -- also wird die Anzahl der erforderlichen Ereignisse wie folgt sein 1 / F 2 Wo F ist der gesuchte Modulationsgrad. In Ihrem Fall, F = 0,00155 , was etwa 400.000 Ereignissen entspricht, was bei der gegebenen Ereignisrate Jahrzehnte dauern wird.

Nun zu den Details.

Lassen N e v e N T S die Gesamtzahl der Ereignisse in Ihrem Datensatz sein. Angenommen, Sie ordnen Ihre Daten ein N Behälter nach Tageszeit. Sie gehen davon aus, dass das Signal die Form hat

S J = A + B cos ( T J ) ,
Wo T J ist die entsprechende Tageszeit J Bin, und die Tageszeiten werden ab dem Zeitpunkt gemessen, an dem das Signal maximal ist. (Wenn Sie nicht wissen, wann das ist und planen, sich darauf einzustellen, dann wird das die Dinge ändern.) Hier A ist die durchschnittliche Anzahl der Lüftungsöffnungen, also
A = N e v e N T S / N ,
Und
B = F A = F N e v e N T S N ,
Wo F = 0,00155 ist die Modulation.

Geht man weiter davon aus, dass Ihre Daten gleichmäßig über alle Tageszeiten verteilt sind, sind die Fehler in S J werden alle ungefähr gleich sein (weil F ist klein). In diesem Fall ist der beste Schätzer von B Ist

B ^ = 2 N J S J cos ( T J ) .
Wir wollen die Varianz finden σ B 2 dieses Schätzers. Der Einzelne S J sind alle unabhängig und haben nahezu gleiche Varianzen σ 2 , So
σ B 2 = 4 σ 2 N 2 J cos 2 ( T J ) .
Vorausgesetzt, dass N groß genug ist, dass diese Summe durch ein Integral angenähert werden kann, kommt die Summe heraus N / 2 , So
σ B 2 = 2 N σ 2 .
Bei Poisson-verteilten Ereignissen ist die Varianz gleich dem erwarteten Wert: σ 2 = A = N e v e N T S / N . Deshalb,
σ B 2 = 2 N e v e N T S N 2 .
Die fraktionale Unsicherheit ist
σ B B = 2 N e v e N T S N N F N e v e N T S = 2 F 2 N e v e N T S .
Für eine 3-Sigma-Erkennung möchten Sie, dass dies 1/3 entspricht, also
N e v e N T S = 18 F 2 = 2.5 × 10 6 .
(Meine anfängliche Schätzung lag um den Faktor 18 daneben -- 3 2 wegen des 3-Sigma und 2 wegen des Punktes, den Sie angemerkt haben, dass Daten in der Nähe der Nullen der Modulation nicht helfen.) Bei 68 Ereignissen pro Tag ergibt dies etwa 300 Jahre. Verzeihung.

Ich habe mich gerade mit den Einzelheiten dessen befasst, was Sie geschrieben haben, und ich habe ein paar kurze Fragen, ich hoffe, es macht Ihnen nichts aus. 1/ In der Größenordnungsschätzung sagen Sie, dass man nehmen kann N e v e N T S 1 / 2 = F und löse nach N e v e N T S ? Ich kann Ihre "Jahrzehnte" -Vorhersage auf diese Weise replizieren, aber - wo Sie sagten: "Ihre Messung einer Modulation wird einen Ordnungsfehler aufweisen N e v e N T S 1 / 2 "Hätte es nicht eine positive Kraft haben sollen? 2/ Was war die Motivation für Ihre Wahl B ^ ? Ich fürchte, ich kann einfach nicht herausfinden, woher dieses Bit kommt.
Das Ding, das so geht N e v e N T S 1 / 2 ist der Fehler bei der Messung von F . Je mehr Ereignisse Sie haben, desto kleiner wird der Fehler, aber nur wie die Quadratwurzel. Um eine Erkennung bei einer bestimmten Anzahl von Sigma zu erhalten, muss dieser Fehler ein bestimmtes Vielfaches von sein F (z. B. 1/3 für eine 3-Sigma-Messung). Die Größenordnungsbeziehung ist also F N e v e N T S 1 / 2 .
Die Formel, die ich für gegeben habe B ^ ist der bestmögliche Schätzer. Das bedeutet zweierlei: Erstens ist es unverzerrt – bei vielen Wiederholungen des Experiments liegt der Durchschnitt bei B ^ würde dem wahren Wert entsprechen. Zweitens hat es eine minimale Varianz – dh den kleinstmöglichen Fehler. Woher wusste ich, dass dies der Minimum-Varianz-Schätzer war? Um ehrlich zu sein, nur Erfahrung. Wenn Sie nach einer sinusförmig variierenden Größe suchen, ist es am besten, Ihre Daten mit derselben Sinusfunktion zu multiplizieren und zu integrieren (oder für diskrete Daten zu addieren). (Mehr im nächsten Kommentar.)
Der 2 / N in der Formel für B ^ ergibt sich aus der Tatsache, dass der „typische“ Begriff in dieser Summe einen Beitrag enthält, der sich im Durchschnitt auszahlt B / 2 . Also wenn man alles zusammenzählt N Begriffe, erhalten Sie ( N / 2 ) B im Durchschnitt. Der Grund dafür ist, dass der typische Begriff in der Summe zu durchschnittlich ist B / 2 liegt daran, dass jeder Begriff in der Summe einen Beitrag erhält B cos 2 T J (Ein Faktor von cos stammt aus der ursprünglichen Multiplikation und einer aus dem "zusätzlichen" Kosinus-Term in der Definition von B ^ ). Über einen kompletten Zyklus cos 2 Durchschnitte aus 1 / 2 .

Rückseite der Umschlagsberechnung. (Ich bin in Eile, hoffe, ich habe das richtig verstanden.)

Wahrscheinlichkeitsfragen wie diese werden am besten mit Wahrscheinlichkeiten beantwortet, also wandeln wir zuerst Ihre Schätzung in eine Wahrscheinlichkeit um P :
Ihre Signalvariation beträgt 0,00155, also:

1 2 P = 0,00155
So P = 0,499225 Und 1 P = 0,500775 . Die Standardabweichung ist
σ = P ( 1 P ) / N 1 / ( 2 N ) .

Sie möchten, dass die Standardabweichung 1/3 der Differenz zwischen 0,5 und beträgt P also lösen wir nach N auf:

( 0,500775 0,5 ) / 3 = 1 / ( 2 N )

zu bekommen N = 7.5 × 10 6 .

Bei 68 Ereignissen pro Tag (eigentlich werden es wegen der Sinuswelle weniger sein) sind das 21.000 Tage.