Ich beschäftige mich mit der Modellierung kleiner experimenteller physikalischer Datensätze (insbesondere der Klebrigkeit von Klebeverbindungen). Da die meisten experimentellen Arbeiten nicht Tausende von Proben generieren, sondern eine Handvoll, muss ich erfinderisch sein, wie ich mit dieser kleinen Anzahl von Datensätzen (sagen wir 10-20) umgehe. An diesem Punkt habe ich ein Modell-Framework (Regression siehe unten bei PSS), das damit ziemlich gut umgehen kann.
Um jedoch ein besseres Bild von der Genauigkeit meiner Vorhersagen zu haben, möchte ich einen Fehlerbalken für meine vorhergesagten Werte haben, um zu überprüfen, wie gut meine Vorhersagen neue Experimente vorhersagen. Da diese Arbeit numerischer Natur ist, wird der Fehlerbalken aus dem zugrunde liegenden theoretischen Modell stammen, wie sich diese Fehler ausbreiten (dh Fehleranalyse, wie man sie in der Experimentalphysik gewohnt ist).
Gehen Sie der Einfachheit halber davon aus, dass ich es mit einem multiplen linearen Regressionsmodell zu tun habe, sagen wir (in Wirklichkeit wird es viel, viel mehr Begriffe geben):
Im Gegensatz dazu ist jeder meiner Modellkoeffizienten [siehe: PSS unten] ( Und ) haben in diesem Fall einen Fehlerbalken (extrahiert durch Bootstrapping aus einer Verteilung, wobei die Verteilungen numerischer Natur und nicht analytisch sind und die Verteilungen für jeden der drei Koeffizienten spezifisch sind). Gibt es eine Möglichkeit, die Unsicherheit der 's (siehe die "Fehlerbalken") in der Berechnung des PI (und CI).
Um es ganz einfach auszudrücken, wie kann die Gleichung
(PS: Man könnte mit dem ein Ensemble aus verschiedenen Modellinstanzen erstellen gezogen aus ihren jeweiligen Verteilungen und basierend auf der erhaltenen Verteilung Berechnen Sie das CI der , aber das ist nicht wirklich recheneffizient und bringt viele andere Probleme mit sich, die ich vermeiden möchte.)
(PPS: Das vorgestellte Regressionsmodell ist nicht das Ergebnis einer direkten Regression auf einen einzelnen Datensatz, sondern wie folgt aufgebaut:
Ich verstehe den von Ihnen verlinkten Beitrag nicht ganz, es scheint, dass sie implizit davon ausgehen, dass sie ein Modell dafür haben, wie generiert wird, was im allgemeinen Fall nicht zutrifft ... Wenn ich Ihre Frage jedoch verstehe, besteht die allgemeinste und einfachste Lösung, um das zu erreichen, was Sie möchten, darin, Ihre Vorhersageintervalle zu booten . Die Grundidee ist, jeden von Ihnen zu verwenden Datensätze zur Erzeugung eines Vektors , dann stapeln Sie Ihre in eine Matrix
Jetzt ist Ihre Verteilung der Ausgaben , und Sie können Statistiken zu den Elementen dieses Vektors erstellen, die Konfidenzintervalle aufweisen.
Dies ist ein Problem, das im Wesentlichen für die Bayes'sche Analyse maßgeschneidert ist. Das Ergebnis einer Bayes'schen Analyse ist die gemeinsame Verteilung aller Ihrer Modellkoeffizienten. Sie können also Stichproben aus den vorhergesagten Daten simulieren, indem Sie zuerst eine Stichprobe aus den Modellkoeffizienten ziehen und dann diese Modellkoeffizienten verwenden, um eine Stichprobe aus den Daten zu ziehen. Dies wird als "posteriore prädiktive Verteilung" bezeichnet. Es wird häufig in der Bayes'schen Analyse verwendet, um die Gültigkeit des Modells zu bewerten. Wenn Ihr Modell Ihren Datengenerierungsprozess angemessen annähert, sollten Ihre tatsächlichen Daten Ihren späteren vorhergesagten Daten angemessen ähnlich sein.
Ich empfehle die Verwendung des rstanarm-Pakets in R. IMO, selbst wenn Sie R nicht kennen, lohnt es sich, es zu lernen, nur um dieses Paket zu verwenden.
Sie sollten Ihr Gehirn nicht mit Statistiken durcheinander bringen. Es gibt Lügen, große Lügen und es gibt Statistiken.
Sie sollten an Ihrer direkten Aufgabe arbeiten, was die Kausalität der Wirkungen ist, die Sie in Ihrer Arbeit erzielen.
Wir alle kennen die Tatsachen der „falschen Korrelation“. Korrelation ist nicht Kausalität. Der Stanley Cup korreliert mit den Verkäufen von Staples[1]. Na und? Nichts.
Ich verstehe nicht, warum Sie eine multiple lineare Regression benötigen, die aufgrund interner theoretischer Inkonsistenzen unglaublich fehlerhaft ist . Hauptsächlich können Sie kein Ergebnis einer "Regression" als Beweis für eine starke Kausalität verwenden. Aber die Regression mit mehreren gemischten Variablen lässt Sie nicht einmal eine schwache Kausalität finden. Wissen Sie, was Heteroskedastizität ist? [2]
Dafür wurde 2003 der Nobelpreis verliehen. Arbeite an Physik, nicht an Statistik. Als Zweites haben Sie Robert Engle.
Über Fehlerbalken, die Sie benötigen. Zeichnen Sie Fehlerbalken in der Größe, die Sie für richtig halten, auf Papier . Sie sind Wissenschaftler. Das sind deine Bars , nicht die von jemand anderem. Fügen Sie etwas Rauschen in Ihre experimentelle Signalleitung ein und schließen Sie die Fehlergrößen, die Sie erhalten.
Semioi
Danny Vanpoucke
Semioi
Danny Vanpoucke
David z
Biophysiker
David z
Nat
Danny Vanpoucke
David Weiß