Ich möchte den durchschnittlichen Abstand zwischen einer festen Metallkonstruktion und Wasser messen, wie im Bild unten gezeigt, um eine Wasserflut vorherzusagen. Nennen wir diesen Abstand Wasserstand h. Wenn der Wasserspiegel zu steigen beginnt, muss ich die Menschen vor Ort darüber informieren, dass die Flut kommt und sie etwas tun müssen usw.
Durch die schwarze Farbe zeige ich eine feste Metallkonstruktion, die sich nicht bewegt. Die blaue Farbe ist Wasser unter dieser Metallkonstruktion. Nehmen wir an, Wasser ist ein See, der immer Wellen hat und niemals ruhig bleibt. und Wellen sind nicht die richtige Sin-Form, sondern zufällig.
Ich habe einen Ultraschall/Laser oder ein anderes Messgerät, das den Abstand zwischen dem Gerät und dem Wasser mit einem Fehler von 0,1 cm sehr schnell messen kann (viel schneller als sich Wasserwellen ändern, z. B. in 1 ms). Ich mache viele Messungen (100-200 Mal) und berechne einen durchschnittlichen Wasserstand in Bezug auf meine Metallkonstruktion.
Zum Beispiel habe ich nach 100 Messungen einen Durchschnitt von h = 123,2 cm erhalten, aber da sich Wasser immer bewegt, ist die Standardabweichung hoch, etwa 20 cm.
Kann ich in diesem Beispiel sagen, dass der Wasserstand h = 123,2 ± 0,1 cm ist, oder kann ich nur h = 120 ± 20 cm sagen, weil die Standardabweichung 20 cm beträgt?
Mit anderen Worten, wenn ich heute durchschnittlich h = 123,2 cm bekomme, morgen h = 130,5 cm und die Standardabweichung die gleichen 20 cm beträgt, sollte ich die Leute dann informieren, dass die Flut kommt, oder ich kann es nicht, weil der Wasserstandsunterschied geringer ist als die Standardabweichung, das heißt, sie liegt unter meinem Fehler und ich kann nicht wirklich sagen, ob der Wasserstand steigt oder fällt.
Dies ist nur ein Beispiel, um die Frage zu demonstrieren. Es gibt keine wirkliche Aufgabe wie diese. Es kann durch ein anderes Beispiel (Messen des Zylinderdurchmessers, wenn es sich nicht um einen idealen Zylinder handelt) oder etwas anderes ersetzt werden, bei dem der Fehler des Geräts viel geringer als die Standardabweichung ist.
Im Allgemeinen lösen sich solche Probleme nicht ohne Weiteres durch eine einfache Anwendung einfacher Statistiken. Eine Standardabweichung ist als Indikator möglicherweise nicht besonders nützlich. Beispielsweise kann die Wellenbewegung bei Flutung ganz anders sein als bei ruhigeren Bedingungen.
Sie müssen auch die generische Natur des Flood-Prozesses kennen. Der Zufluss in den See erhöht den Pegel im ganzen See. Wind, der das Wasser zu einer Seite drückt, ist sehr unterschiedlich, kann aber dennoch einen Teil des Seeufers überfluten. Ein Wasserskifahrer, der dem Dock besonders nahe kommt, kann eine 1-Meter-Welle über das Dock senden, die Ihr Hochwasserwarnsystem wahrscheinlich nicht auslösen sollte.
Sie benötigen mindestens ein minimales Modell des Gesamtwassers im See, wie es durch Pegelmessungen geschätzt wird. Wahrscheinlich benötigen Sie mehrere Füllstandsmessungen an verschiedenen Orten. Sie müssen diese im Laufe der Zeit haben, um die Änderungsrate des Wassers im See zu erhalten.
Dann müssen Sie einen Weg finden, mit Lärm umzugehen. Die Standardabweichung kann nützlich sein, muss es aber nicht. Es gibt viele Trendmessungen. Beispielsweise gibt es gleitende Durchschnitte.
https://en.wikipedia.org/wiki/Moving_average
Diese Seite enthält auch Links zu einer Reihe anderer Möglichkeiten.
Sobald Sie ein Modell des gesamten Wassers im See haben, benötigen Sie Testdaten, um es zu validieren. Sie müssten echte Beobachtungen machen und sie mit Überschwemmungen vergleichen. Wenn Ihr Modell genau Zeit für eine Feier ist. Wenn Ihr Modell nicht genau ist, gehen Sie zurück an die Arbeit.
Geht man von einer Normalverteilung aus, besteht die Chance, dass eine neue Stichprobe entsteht außerhalb des Mittelwertes Ist repariert.
Sie können sehen, wie das in der Tabelle hier https://en.wikipedia.org/wiki/68%E2%80%9395%E2%80%9399.7_rule verwendet wird
Wählen Sie daher vor dem Deklarieren einer Überschwemmung einen Wert von aus das gibt dir genug Vertrauen.
Eine Probe mit a Die Abweichung ist zu 32 % wahrscheinlich nur auf einen Fehler (eine große Welle) zurückzuführen.
Es ist beliebt, bis etwa zu arbeiten
(0,027 % oder tritt wahrscheinlich alle 370 Proben auf natürliche Weise auf)
aber wichtige Ergebnisse werden in der Regel bestätigt
(0,000000002 % oder wahrscheinliches natürliches Auftreten alle 500.000.000 Proben).
oder höher.
Das Eliminieren von Messfehlern trägt dazu bei, eine engere Verteilung zu erreichen und das Vertrauen zu verbessern.
Zum Beispiel habe ich nach 100 Messungen einen Durchschnitt von h = 123,2 cm erhalten, aber da sich Wasser immer bewegt, ist die Standardabweichung hoch, etwa 20 cm. Kann ich in diesem Beispiel sagen, dass der Wasserstand h = 123,2 ± 0,1 cm ist, oder kann ich nur h = 120 ± 20 cm sagen, weil die Standardabweichung 20 cm beträgt?
Dies ist ein Fall, in dem der tatsächliche Blick auf die Daten klarer macht, was passiert. Hier sind einige Daten mit den von Ihnen angegebenen Eigenschaften: ein Mittelwert von 123,2 cm und eine Standardabweichung von . Ich bin von einer Normalverteilung ausgegangen, aber Sie können eine andere Verteilung wählen, wenn Sie Lust dazu haben. Diese Tausend sind gegen die Messungsnummer aufgetragen:
Die gestrichelten Linien sind bei Null, , , Und von der Mitte. Sie können sehen, dass die meisten Daten innerhalb der liegen Band um den Mittelwert, und fast alle Daten liegen innerhalb . Nur sehr seltene Punkte liegen außerhalb der Band. Es gibt zufällig genau drei Messungen außerhalb der Band (in der Nähe der Mitte, und alle auf der Seite nähern sich 200 cm), was jemand, der neu in diesem Geschäft ist, als Bestätigung der Aussage in einer anderen Antwort nehmen könnte, dass 99,7 % der normalverteilten Datenpunkte innerhalb liegen des Mittelwertes. Aber die Tatsache, dass ich genau drei "Ausreißer" bekommen habe und dass alle Ausreißer zufällig auf der hohen Seite liegen, ist ein Zufall: Drei Drei-Sigma-Ausreißer pro tausend Punkte sind der Durchschnitt über viele tausend Datenpunkte und alle bestimmte tausend Datenpunkte können ein paar mehr oder weniger als drei Ausreißer haben.
Wenn ich diese Daten in ein Histogramm komprimiere, sieht es so aus:
Sie sehen hier, dass ein Maß von 130 cm keine Seltenheit ist; Dieser Datensatz hat fünfzig oder sechzig Messungen in dem Behälter, wo eine Messung von 130 cm hingehört. Wenn Sie mir sagen , höre ich "normalerweise zwischen 100 cm und 140 cm".
Was vielleicht nicht intuitiv ist, ist, dass Sie mehr über den Mittelwert wissen als über eine bestimmte Messung. Der "Standardfehler beim Mittelwert" geht wie folgt , Wo ist die Standardabweichung der Verteilung und ist die Anzahl der Stichproben, die in die Berechnung des Mittelwerts einbezogen werden. Dieser Datensatz hat beispielsweise Und , also ist die Unsicherheit über den Mittelwert . Der tatsächliche Mittelwert, den ich aus diesen tausend Datenpunkten berechne, ist , was völlig mit dem Mittelwert von 123,2 cm übereinstimmt, den ich von Hand eingegeben habe.
Um den Unterschied zwischen der Breite einer Verteilung und der Unsicherheit des Mittelwerts etwas deutlicher zu sehen, sind hier Histogramme von zehn verschiedenen Sätzen von jeweils 1000 Messungen, die auf die gleiche Weise wie das obige erstellt wurden:
Der Mittelwert jedes Datensatzes wird mit einem dicken blauen Punkt dargestellt. Auf der linken Seite, wo Sie die gesamte Verteilung sehen, können Sie kaum erkennen, dass nicht alle Mittel gleich sind. Auf der rechten Seite, wo nur die Mittelwerte angezeigt werden, sehen Sie die Unsicherheitsschätzung scheint ein guter Schätzer für die Unsicherheit des Mittelwerts zu sein, da etwa zwei Drittel der Mittelwerte innerhalb eines Fehlerbalkens vom korrekten Wert liegen. Das ist wie Meta-Statistik: Statistiken über die Mittelwerte und Standardabweichungen mehrerer Datensätze erstellen.
Dies ist ein allgemeines Muster bei Statistiken: Es ist sinnvoller, wenn Sie tatsächlich mit einigen Daten spielen können, bei denen Sie einige der Dinge, die Sie interessieren, bereits kennen.
Färcher
Zlelik
Färcher