Fehlerabschätzung bei Messungen mit hoher Standardabweichung

Ich möchte den durchschnittlichen Abstand zwischen einer festen Metallkonstruktion und Wasser messen, wie im Bild unten gezeigt, um eine Wasserflut vorherzusagen. Nennen wir diesen Abstand Wasserstand h. Wenn der Wasserspiegel zu steigen beginnt, muss ich die Menschen vor Ort darüber informieren, dass die Flut kommt und sie etwas tun müssen usw.

Geben Sie hier die Bildbeschreibung ein

Durch die schwarze Farbe zeige ich eine feste Metallkonstruktion, die sich nicht bewegt. Die blaue Farbe ist Wasser unter dieser Metallkonstruktion. Nehmen wir an, Wasser ist ein See, der immer Wellen hat und niemals ruhig bleibt. und Wellen sind nicht die richtige Sin-Form, sondern zufällig.

Ich habe einen Ultraschall/Laser oder ein anderes Messgerät, das den Abstand zwischen dem Gerät und dem Wasser mit einem Fehler von 0,1 cm sehr schnell messen kann (viel schneller als sich Wasserwellen ändern, z. B. in 1 ms). Ich mache viele Messungen (100-200 Mal) und berechne einen durchschnittlichen Wasserstand in Bezug auf meine Metallkonstruktion.

Zum Beispiel habe ich nach 100 Messungen einen Durchschnitt von h = 123,2 cm erhalten, aber da sich Wasser immer bewegt, ist die Standardabweichung hoch, etwa 20 cm.

Kann ich in diesem Beispiel sagen, dass der Wasserstand h = 123,2 ± 0,1 cm ist, oder kann ich nur h = 120 ± 20 cm sagen, weil die Standardabweichung 20 cm beträgt?

Mit anderen Worten, wenn ich heute durchschnittlich h = 123,2 cm bekomme, morgen h = 130,5 cm und die Standardabweichung die gleichen 20 cm beträgt, sollte ich die Leute dann informieren, dass die Flut kommt, oder ich kann es nicht, weil der Wasserstandsunterschied geringer ist als die Standardabweichung, das heißt, sie liegt unter meinem Fehler und ich kann nicht wirklich sagen, ob der Wasserstand steigt oder fällt.

Dies ist nur ein Beispiel, um die Frage zu demonstrieren. Es gibt keine wirkliche Aufgabe wie diese. Es kann durch ein anderes Beispiel (Messen des Zylinderdurchmessers, wenn es sich nicht um einen idealen Zylinder handelt) oder etwas anderes ersetzt werden, bei dem der Fehler des Geräts viel geringer als die Standardabweichung ist.

Denken Sie daran, dass es nicht der Durchschnitt ist, der die Überschwemmung auslöst, sondern die Werte über dem Durchschnitt, und Sie sollten sich Sorgen machen, wenn der Mittelwert plus zwei oder drei Standardabweichungen über Ihrer Schwellenhöhe liegt. Sicher ist sicher.
@Farcher Wenn in meinem Beispiel der Durchschnitt 123,2 mit einer Standardabweichung von 20 cm betrug und der Durchschnitt irgendwann um 7 cm auf 130 cm anstieg (was dreimal weniger als die Standardabweichung ist), sollte ich mir überhaupt keine Sorgen machen. Aber wenn der Durchschnitt 160 cm oder mehr beträgt, sollte ich mir dann Sorgen machen? Meintest du das?
Es ist der aktuelle Durchschnitt mal n Standardabweichungen, wobei n das ist, worüber Sie sich entscheiden müssen. Ich würde mir Sorgen machen , wenn eine signifikante Anzahl von Werten über dem Durchschnitt plus zwei Standardabweichungen liegt.

Antworten (3)

Im Allgemeinen lösen sich solche Probleme nicht ohne Weiteres durch eine einfache Anwendung einfacher Statistiken. Eine Standardabweichung ist als Indikator möglicherweise nicht besonders nützlich. Beispielsweise kann die Wellenbewegung bei Flutung ganz anders sein als bei ruhigeren Bedingungen.

Sie müssen auch die generische Natur des Flood-Prozesses kennen. Der Zufluss in den See erhöht den Pegel im ganzen See. Wind, der das Wasser zu einer Seite drückt, ist sehr unterschiedlich, kann aber dennoch einen Teil des Seeufers überfluten. Ein Wasserskifahrer, der dem Dock besonders nahe kommt, kann eine 1-Meter-Welle über das Dock senden, die Ihr Hochwasserwarnsystem wahrscheinlich nicht auslösen sollte.

Sie benötigen mindestens ein minimales Modell des Gesamtwassers im See, wie es durch Pegelmessungen geschätzt wird. Wahrscheinlich benötigen Sie mehrere Füllstandsmessungen an verschiedenen Orten. Sie müssen diese im Laufe der Zeit haben, um die Änderungsrate des Wassers im See zu erhalten.

Dann müssen Sie einen Weg finden, mit Lärm umzugehen. Die Standardabweichung kann nützlich sein, muss es aber nicht. Es gibt viele Trendmessungen. Beispielsweise gibt es gleitende Durchschnitte.

https://en.wikipedia.org/wiki/Moving_average

Diese Seite enthält auch Links zu einer Reihe anderer Möglichkeiten.

Sobald Sie ein Modell des gesamten Wassers im See haben, benötigen Sie Testdaten, um es zu validieren. Sie müssten echte Beobachtungen machen und sie mit Überschwemmungen vergleichen. Wenn Ihr Modell genau Zeit für eine Feier ist. Wenn Ihr Modell nicht genau ist, gehen Sie zurück an die Arbeit.

Eigentlich ist die Wasserflut nur ein Beispiel. Ich möchte nur besser verstehen, wie die Standardabweichung für echte Messungen richtig verwendet wird. Aber der gleitende Durchschnitt ist ein sehr guter Artikel. Ich wusste nichts davon. Vielen Dank.

Geht man von einer Normalverteilung aus, besteht die Chance, dass eine neue Stichprobe entsteht N σ außerhalb des Mittelwertes P Ö u T S ich D e ( S ) Ist repariert.

Sie können sehen, wie das in der Tabelle hier https://en.wikipedia.org/wiki/68%E2%80%9395%E2%80%9399.7_rule verwendet wird

Wählen Sie daher vor dem Deklarieren einer Überschwemmung einen Wert von aus N das gibt dir genug Vertrauen.

Eine Probe mit a 1 σ Die Abweichung ist zu 32 % wahrscheinlich nur auf einen Fehler (eine große Welle) zurückzuführen.

Es ist beliebt, bis etwa zu arbeiten

3 σ (0,027 % oder tritt wahrscheinlich alle 370 Proben auf natürliche Weise auf)

aber wichtige Ergebnisse werden in der Regel bestätigt

6 σ (0,000000002 % oder wahrscheinliches natürliches Auftreten alle 500.000.000 Proben).

oder höher.

Das Eliminieren von Messfehlern trägt dazu bei, eine engere Verteilung zu erreichen und das Vertrauen zu verbessern.

Zum Beispiel habe ich nach 100 Messungen einen Durchschnitt von h = 123,2 cm erhalten, aber da sich Wasser immer bewegt, ist die Standardabweichung hoch, etwa 20 cm. Kann ich in diesem Beispiel sagen, dass der Wasserstand h = 123,2 ± 0,1 cm ist, oder kann ich nur h = 120 ± 20 cm sagen, weil die Standardabweichung 20 cm beträgt?

Dies ist ein Fall, in dem der tatsächliche Blick auf die Daten klarer macht, was passiert. Hier sind einige Daten mit den von Ihnen angegebenen Eigenschaften: ein Mittelwert von 123,2 cm und eine Standardabweichung von σ = 20 C M . Ich bin von einer Normalverteilung ausgegangen, aber Sie können eine andere Verteilung wählen, wenn Sie Lust dazu haben. Diese Tausend sind gegen die Messungsnummer aufgetragen:

1k zufällige Datenpunkte

Die gestrichelten Linien sind bei Null, ± 1 σ , ± 2 σ , Und ± 3 σ von der Mitte. Sie können sehen, dass die meisten Daten innerhalb der liegen ± 1 σ Band um den Mittelwert, und fast alle Daten liegen innerhalb ± 2 σ . Nur sehr seltene Punkte liegen außerhalb der ± 3 σ Band. Es gibt zufällig genau drei Messungen außerhalb der ± 3 σ Band (in der Nähe der Mitte, und alle auf der Seite nähern sich 200 cm), was jemand, der neu in diesem Geschäft ist, als Bestätigung der Aussage in einer anderen Antwort nehmen könnte, dass 99,7 % der normalverteilten Datenpunkte innerhalb liegen ± 3 σ des Mittelwertes. Aber die Tatsache, dass ich genau drei "Ausreißer" bekommen habe und dass alle Ausreißer zufällig auf der hohen Seite liegen, ist ein Zufall: Drei Drei-Sigma-Ausreißer pro tausend Punkte sind der Durchschnitt über viele tausend Datenpunkte und alle bestimmte tausend Datenpunkte können ein paar mehr oder weniger als drei Ausreißer haben.

Wenn ich diese Daten in ein Histogramm komprimiere, sieht es so aus:

Histogramm von Datenpunkten

Sie sehen hier, dass ein Maß von 130 cm keine Seltenheit ist; Dieser Datensatz hat fünfzig oder sechzig Messungen in dem Behälter, wo eine Messung von 130 cm hingehört. Wenn Sie mir sagen ( 123.2 ± 20 ) C M , höre ich "normalerweise zwischen 100 cm und 140 cm".

Was vielleicht nicht intuitiv ist, ist, dass Sie mehr über den Mittelwert wissen als über eine bestimmte Messung. Der "Standardfehler beim Mittelwert" geht wie folgt σ / N , Wo σ ist die Standardabweichung der Verteilung und N ist die Anzahl der Stichproben, die in die Berechnung des Mittelwerts einbezogen werden. Dieser Datensatz hat beispielsweise σ = 20 C M Und N = 1000 , also ist die Unsicherheit über den Mittelwert σ / N = 0,6 C M . Der tatsächliche Mittelwert, den ich aus diesen tausend Datenpunkten berechne, ist ( 123.3 ± 0,6 ) C M , was völlig mit dem Mittelwert von 123,2 cm übereinstimmt, den ich von Hand eingegeben habe.

Um den Unterschied zwischen der Breite einer Verteilung und der Unsicherheit des Mittelwerts etwas deutlicher zu sehen, sind hier Histogramme von zehn verschiedenen Sätzen von jeweils 1000 Messungen, die auf die gleiche Weise wie das obige erstellt wurden:

zehn Histogramme

Der Mittelwert jedes Datensatzes wird mit einem dicken blauen Punkt dargestellt. Auf der linken Seite, wo Sie die gesamte Verteilung sehen, können Sie kaum erkennen, dass nicht alle Mittel gleich sind. Auf der rechten Seite, wo nur die Mittelwerte angezeigt werden, sehen Sie die Unsicherheitsschätzung σ / N = 0,6 C M scheint ein guter Schätzer für die Unsicherheit des Mittelwerts zu sein, da etwa zwei Drittel der Mittelwerte innerhalb eines Fehlerbalkens vom korrekten Wert liegen. Das ist wie Meta-Statistik: Statistiken über die Mittelwerte und Standardabweichungen mehrerer Datensätze erstellen.

Dies ist ein allgemeines Muster bei Statistiken: Es ist sinnvoller, wenn Sie tatsächlich mit einigen Daten spielen können, bei denen Sie einige der Dinge, die Sie interessieren, bereits kennen.

Danke für eine gute Antwort. Ich habe nur nicht verstanden, was in Ihrem Beispiel Fehler 0,6 cm bedeutet. Wenn ich eine Normalverteilung σ=20cm habe, bedeutet das mit Wahrscheinlichkeit, dass der 65%-Wert zwischen 100 und 140 cm liegt. Aber wenn ich 1000 Messungen durchführe und die Standardabweichung dieselben 20 cm beträgt, was sind diese 0,6 cm? Ich denke, es spielt keine Rolle, wie viele Messungen ich durchgeführt habe, aber die Wahrscheinlichkeit, den Wert zwischen 100 und 140 cm zu finden, ist gleich 65 %, und wenn ich 123,3 ± 0,6 cm mit einer Standardabweichung von 20 cm sage, dann liegt die Wahrscheinlichkeit, dass der Wert zwischen 122,7 liegt und 123,9 cm ist sehr klein, vielleicht <1%.
Ich habe versucht zu unterscheiden zwischen dem, was man über eine einzelne Messung sagen kann, und dem, was man über ein Ensemble von Messungen sagen kann. Vielleicht bringt die Bearbeitung Klarheit.
Es ist etwas klarer, aber immer noch nicht 100% klar. Wenn wir sagen, dass heute der durchschnittliche Wasserstand h = (123,3 ± 0,6) cm in dem von Ihnen erklärten Sinne ist, dann wird es morgen h = (125,3 ± 0,6) cm und in beiden Fällen beträgt die Standardabweichung 20 cm, dann sollten wir deklarieren eine Überschwemmung oder ist es nur eine zufällige Abweichung und hat keine Bedeutung? Mit anderen Worten, was bedeuten 0,6 cm aus physikalischer Sicht, nicht aus rein statistischer Sicht?
Wenn Klimaexperten davon sprechen, den Anstieg des Meeresspiegels um mehrere Zentimeter in den letzten zwanzig Jahren beobachtet zu haben, machen sie genau die Art von Analyse, die Sie in Ihrem Kommentar vorschlagen. Das Meer hat schnelle Wellen, die viel höher als ein paar Zentimeter sind, und Gezeiten, die viel höher sind als typische schnelle Wellen „mittleres“ Niveau. Mit vielen Beobachtungen lässt sich jedoch bestätigen, dass der mittlere Meeresspiegel heute deutlich anders ist als in den 1990er Jahren.
Aber was bedeuten diese 0,6 cm aus physikalischer Sicht? Die Standardabweichung ist klar, wenn ich 120 ± 20 cm schreibe (20 cm ist die Standardabweichung), bedeutet dies, wenn ich Messungen durchführe, dass der Wert mit 65% Wahrscheinlichkeit zwischen 100 cm und 140 cm liegt. aber was sind 0,6 cm? Oder was würden Sie in diesem Beispiel tun: Heute durchschnittlicher Wasserstand h=(123,3±0,6)cm in dem von Ihnen erklärten Sinne, morgen wird es dann h=(125,3±0,6)cm und in beiden Fällen beträgt die Standardabweichung 20cm , würden Sie dann eine Überschwemmung ausrufen und mit der Evakuierung der Menschen beginnen, oder würden Sie nichts tun?
und wenn Klimaleute mir sagen, die Temperatur steigt um 0,5 ° C ± 0,1 mit einer Standardabweichung von 2 ° C, dann ist das ein bisschen seltsam für mich :)