Warum führt LIGO blinde Dateninjektionen durch, aber nicht der LHC?

Die LIGO-Gruppe hat ein Team, das regelmäßig gefälschte Daten produziert, die auf eine mögliche Gravitationswelle hinweisen, ohne die Analysten zu informieren. Ein Freund von mir, der an der LHC-Datenanalyse arbeitet, sagte mir, dass keine der LHC-Gruppen dies tut. Warum verwendet eines dieser datenintensiven Projekte blinde Dateninjektionen, das andere jedoch nicht?

Vielleicht, weil Sie in einem Fall auf ein Ziel schießen und prüfen, ob Sie es treffen, und im anderen darauf warten, dass der Feueralarm ertönt, damit Sie handeln können, und im letzteren Fall ist es besser, vorbereitet zu sein.
Wie würden Sie den Unterschied erkennen? LIGO sucht nach etwas, das einfach und theoretisch gut verständlich ist. LHC sucht nach Dingen, die noch nie gesehen wurden, und wenn Sie mit den Ereignisgeneratoren etwas vortäuschen, das auf der Grundlage des aktuellen Modells passieren könnte, würden die Datenanalysten korrekt darauf schließen, dass es passiert.

Antworten (4)

Nachdem sie mir von ihren beeindruckenden "LHC-Olympiaden" erzählten, bei denen Physiker (oft Hardcore-Theoretiker) ein Teilchenphysikmodell aus den rohen (aber gefälschten) LHC-Daten nachbauten, schlug ich die gleiche Idee in einem Kreis von Physikern in Harvard vor, darunter Nima Arkani-Hamed, irgendwann im Jahr 2005, und wir haben an diesen LHC-Ideen im Detail gearbeitet. Wir dachten, wie amüsant es wäre, einige Zeichen von zusätzlichen Dimensionen und viele andere Dinge zu injizieren. Wir erkannten auch die zunehmende Aufregung an, die es der Teilchenphysik-Community bringen könnte.

Der Hauptgrund, warum diese „Übung“ für den LHC wahrscheinlich nicht so wichtig ist wie für LIGO, ist, dass Teilchenphysiker – Experimentatoren und Phänomenologen – sowieso viele ähnliche Übungen machen, auch wenn ihnen nicht gesagt wird, dass „es sind echte (aber gefälschte) Daten vom LHC". Phänomenologen denken präventiv über viele "mögliche Signale" usw. nach. Sie brauchen kein zusätzliches "Training" der gleichen Art.

Darüber hinaus erkennt LIGO fast immer langweiliges Rauschen, sodass LIGO nicht viele wertvolle Daten verliert, wenn ein Teil dieses Rauschens überschrieben wird. Doch selbst wenn erwartet wird, dass der LHC ständig Standard-Modell-ähnliche Prozesse erzeugt, ist ihre Struktur komplexer als nur ein namenloses „Rauschen“. Indem man also die echten Daten durch etwas mit einer Kontamination eines gefälschten Signals überschreibt, könnte man die Daten für viele Analysen wirklich kontaminieren. Echte Arbeit von vielen Menschen, die zu viel Zeit in Anspruch nimmt, könnte nutzlos sein und ist zu viel verlangt.

Hier besteht der Unterschied wirklich darin, dass LIGO ziemlich sicher war, dass es um 2010 herum kein echtes Signal bekommen würde. Die Physiker in LIGO hatten also nichts dergleichen, an dem sie arbeiten konnten, und um ihre Fähigkeiten nicht zu verlieren, einen "Bohrer". „War eine gute Idee. Andererseits analysiert der LHC echte LHC-Daten von bisher ungetesteten Energien wie 13 TeV, und es besteht eine erhebliche Wahrscheinlichkeit, dass sie auch ohne Injektionen etwas entdecken. Die Injektionen werden also nicht benötigt – die Leute arbeiten sowieso hart an interessanten, strukturierten Daten.

Ein damit zusammenhängender Unterschied besteht darin, dass sich die Stärke des LIGO-Signals während der 0,2-Signale, die die Verschmelzung der Schwarzen Löcher nahm, schnell aufbaut. Andererseits baut sich die Stärke des LHC-Signals für ein ganzes Jahr oder länger auf. Wenn all die interessanten neuen physikalischen Ereignisse am LHC zu schnell (an einem Tag) stattfanden und dann verschwanden, könnten die Experimentatoren sehen, dass etwas verdächtig ist. Der LHC müsste das Signal während des gesamten Durchlaufs kontaminieren und wüsste nicht, wie stark die Kontamination pro Zeiteinheit des Bohrers sein sollte. Das Signal wird immer stärker, wenn man mehr LHC-Kollisionen aufzeichnet – aber ein einzelnes Ereignis, das LIGO detektiert, kann durch ein solches Warten nicht „verstärkt“ werden. Der LIGO-Drill ist also eine gut definierte Kampagne, die eine begrenzte Zeit in Anspruch nimmt, während der LHC-Drill eine Kampagne mit "unbestimmter Zeit" sein könnte.

Wie CuriousOne im Grunde gesagt hat, aber ich werde es anders sagen, gibt es noch viel mehr mögliche Entdeckungen am LHC . Daher könnte die Erfindung eines bestimmten „falschen Signals“ eine sehr problematische Sache sein – welches ist das beste Signal zum Injizieren? Der Fall LIGO war ganz anders. Das gefälschte Signal von 2010 war eigentlich eine Verschmelzung von Schwarzen Löchern, die der tatsächlichen Entdeckung von 2015-2016 sehr ähnlich war. Es gab also im Grunde „eine einzige höchstwahrscheinliche erste Entdeckung“ – ein Szenario, so einzigartig und spezifisch wie ein Brand in einem Wolkenkratzer – also machte eine spezielle Übung für dieses Szenario Sinn.

Lassen Sie mich zunächst erwähnen, dass der LHC in gewisser Weise ein Lehrbuchexperiment ist: Sie haben eine sehr gute Kontrolle über die Versuchsbedingungen und können Ihr Experiment beliebig oft wiederholen. Sie haben in gewisser Weise die volle Kontrolle über das Signal. Die Ergebnisse sind reproduzierbar, indem Sie das Experiment einfach wiederholen. LIGO ist „nur“ ein Detektor: Insbesondere haben Sie keinerlei Kontrolle über das Signal. Dies macht die beiden Experimente sehr unterschiedlich und was für das eine Experiment interessant ist, ist möglicherweise für das andere nicht interessant.

Hier sind ein paar Gründe, warum dies für den LHC nicht wirklich machbar ist:

  • LIGO ist von Einzelereignissen abhängig, der LHC nicht. Wenn der LHC etwas findet, basiert dies immer auf vielen Experimentrunden und Milliarden von Kollisionen, um die erforderlichen Statistiken zu erhalten. Wenn LIGO etwas findet, basiert dies auf einem Signal, das nur wenige Millisekunden dauert. Das bedeutet, dass man, um das LHC-Signal zu fälschen, es monatelang manipulieren muss, während man, um das LIGO-Signal zu fälschen, vielleicht eine Sekunde des Datensatzes manipulieren muss. Wenn Sie monatelange Daten manipulieren, besteht außerdem eine gute Chance, dass Sie auch gute Daten manipuliert haben, die zu einer bedeutenden Entdeckung geführt hätten.

  • Das LHC-Signal sind aneinanderstoßende Teilchen, die dann in zwei Experimenten (ATLAS und CMS) sofort von einer Vielzahl sehr unterschiedlicher Detektoren detektiert werden. Während dies mit Monte-Carlo-Simulationen möglich ist, wie CuriousOne darauf hingewiesen hat, scheint es für LIGO immer noch viel einfacher zu sein: LIGO ist "nur" ein Michelson-Interferometer: Um ein Signal zu fälschen, wackelt man mit den Spiegeln, weil sich das ändert Weglänge des Lasers, was alles ist, was Sie jemals messen (dies wird in Ihrem Artikel beschrieben).

  • Wie CuriousOne sagte: Der LHC erkennt eine Menge Dinge, die bekannt sind, aber was uns wirklich interessiert, sind die Dinge, von denen wir keine Ahnung haben, wie sie aussehen sollten (naja, nicht wirklich: Viele Leute haben viele Ideen, aber niemand stimmt zu und bei allen Ideen ist nicht wirklich klar, wie das genaue Signal aussehen wird). Im Gegensatz dazu wissen wir ziemlich genau, wonach wir in LIGO suchen.

Das Einfügen gefälschter Daten in das Experiment kann durch Software erfolgen. Es ist nicht erforderlich, es auf Detektor- oder gar DAQ-Ebene einzuspeisen. Es gibt kein Problem bei der Erzeugung von "Rauschen" und Ereignisdaten in Hochenergiephysik-Experimenten, d. h. der Steuerung der Detektorleistung. Detektoren sind so kompliziert, dass ihre Reaktion mathematisch nicht „rückgängig gemacht“ werden kann. Stattdessen kalibrieren wir Monte-Carlo-Ereignisgeneratoren und Detektormodelle so, dass sie wie die echten "Rausch"-Daten aussehen, und suchen dann nach Unterschieden, die in der Simulation auftreten, wenn wir die Annahmen in Monte Carlo ändern.
@CuriousOne: Danke für den Hinweis. Ich weiß, dass die Detektoren viel zu kompliziert sind, um sie mathematisch rückgängig zu machen, und ich habe über Monte-Carlo-Methoden nachgedacht, aber ich habe vergessen, dass Sie das Modell einfach mit den echten Rauschdaten "trainieren" können. Vielen Dank für den Hinweis. Ich habe den Absatz entsprechend umgeschrieben/gelöscht. Ich würde immer noch sagen, dass das schwieriger klingt als das Wackeln des LIGO-Spiegels, aber ich denke, dass etwas, das etwas schwieriger ist, kein guter Grund ist, es nicht zu tun - was hier keine Rolle spielt, da es sowieso andere Gründe gibt ...
Ich denke, man kann zustimmen, dass die in der Hochenergiephysik verwendete Methodik eine etwas seltsame (rückständige?) und auf den ersten Blick fragwürdige Methode der Datenanalyse ist ... eine, die sicherlich eher von der Komplexität des Problems als vom Wunsch der Physiker angetrieben wird es so zu machen. Ich sage nur, dass man sicherlich gefälschte Daten so einfügen könnte, dass die Analysten es nicht wissen, aber es scheint relativ wenig zu gewinnen, zumal es Auswirkungen haben kann, wenn es die MCs befleckt. Bei einem Experiment, an dem ich mitgearbeitet habe, gab es sehr hitzige Diskussionen über gefälschte Testdaten. :-)

Fake Event Injection ist nur eines von mehreren Schemata für „blinde“ Analysen. Andere Verblindungsschemata umfassen die Manipulation einiger Parameter der Daten, wie sie dem Analyseteam durch eine reversible Transformation irgendeiner Art, mehrere unabhängige Analysen und vollständige Analyse-Trockenläufe an simulierten Daten gezeigt werden.

Es gilt zu verstehen, welchen Zwecken diese Dinge dienen.

  • Gefälschte Ereignisinjektion

    Es funktioniert am besten, wenn die Ausgabe eines Detektors einfach ist (im Fall von LIGO ist es im Grunde eine einzelne Zeitreihe für jedes der Interferometer) und das erwartete Signal einigermaßen gut verstanden wird, und ist am nützlichsten, wenn reale Ereignisse selten sind . Es dient dazu, den Prozess zu proben und zu testen, der auf die Beobachtung eines realen Ereignisses angewendet wird

    KamLAND kam um ein echtes Ereignis pro Tag herum, daher waren Entdeckungen nicht sehr selten, aber einzelne Entdeckungen wurden von der Schichtmannschaft in den frühen Tagen des Experiments bemerkt. Als ich an dem Experiment teilnahm, hatten sie eine „Online-Ereigniserkennungsroutine“, die ein paar Mal pro Schicht ausgelöst wurde und dazu diente, Sie auf Trab zu halten. Das waren keine Fake-Daten, sondern ein grober Filter. Nichtsdestotrotz bedeutete dies, dass Schichtführer ihre Reaktion auf ein Datenereignis regelmäßig üben mussten.

    Die Art der Daten bei einem großen Verbunddetektor wie dem am LHC ist sehr unterschiedlich. Denn die interessierenden Prozesse sind nicht diskret, sondern aus einem Portfolio von Ereignissen aufgebaut und haben immer einen nicht-trivialen Hintergrund. Gefälschte Signale und die damit verbundenen Hintergründe müssen durch groß angelegte Monte-Carlo-Simulationen generiert und zu einem gefälschten Datenstrom zusammengeführt und dann wieder auseinandergenommen werden, um eine vorgeschlagene Analyse zu validieren – ein Prozess, der ständig stattfindet, aber offline stattfindet.

  • Reversible Transformation der Daten.

    Der Hauptvorteil einer solchen "Blindanalyse" besteht darin, dass das Analyseteam daran gehindert wird, Entscheidungen darüber zu treffen, wie die Kürzungen aufgrund einer (vermutlich unbewussten, aber es wirkt auch gegen einige böswillige Manipulationen) Voreingenommenheit hinsichtlich der Ergebnisse getroffen werden "sollte" herauskommen.

    Das G 0 Das Protonenexperiment mit schwachem Formfaktor am JLAB verwendete eine multiplikative Skala (offline an einem sicheren Ort gespeichert und nur wenigen hochrangigen Mitgliedern der Kollaboration bekannt, die nicht an der Analyse beteiligt waren), die beispielsweise auf die momentane Asymmetrie angewendet wurde. In diesem Fall war das Hauptergebnis des Experiments die Größe dieser Asymmetrie, sodass die Manipulation die Optimierung der Analyse verhinderte, um das bevorzugte Ergebnis zu erhalten.

  • Mehrere getrennte Analysen

    Hier arbeiten zwei oder mehr Teams unabhängig voneinander von Grund auf an den Daten und Vergleiche zwischen ihren Ergebnissen werden nur gelegentlich und in einem öffentlichen Rahmen durchgeführt. Die Vorstellung ist, dass sich jedes Team mit den gleichen Problemen auseinandersetzen muss und sie – aufgrund dessen, dass sie dies getrennt tun – manchmal auf unterschiedliche Weise lösen wird. Wenn die Ergebnisse der Analyse angesichts einer leicht unterschiedlichen Handhabung der Daten robust sind, können Sie ihnen mehr Vertrauen entgegenbringen; Auf der anderen Seite werden die Teams, wenn sie anderer Meinung sind, gebeten, als Fürsprecher für ihren eigenen Standpunkt angesichts der Überprüfung sowohl durch den Rest der Zusammenarbeit als auch durch andere Teams aufzutreten, bis die Unterschiede in den Ergebnissen behoben sind. Ich habe gesehen, dass dies absichtlich verwendet wird G 0 , KamLAND und Double Chooz, und es wird in einer natürlichen Umgebung bei fast jedem großen Projekt verwendet, nur weil sich die Interessengebiete verschiedener Arbeitsgruppen überschneiden.

    Wie ich bereits erwähnt habe, stellen CMS und ATLAS eine Art Superversion dieses Prozesses dar, bei der sich sogar die Details ihrer Detektoren unterscheiden. Aus diesem Grund war ihre kombinierte Ankündigung der Higgs-Entdeckung überzeugender, als es eine einzelne Ankündigung mit ähnlichen Statistiken hätte sein können.

  • Offline-Monte-Carlo-Herausforderung.

    In diesem Schema wird dem Analyseteam oder Teilmengen davon ein vollständig gefälschter Datenstrom präsentiert, der so konstruiert ist, dass er alle erwarteten Signale und Hintergründe (und vielleicht einige „spezielle“ Daten) enthält, und gebeten, die Größe der verschiedenen Beiträge auseinander zu nehmen. Dies ist ein Probelauf für eine vollständige Analyse der Daten, die anhand eines Arbeitssatzes erstellt wurden, der von einem Teil der Kollaboration, der nicht Teil der Analyseteams ist, vollständig verstanden wird. Ich habe gesehen, wie dies in großem Umfang für Double Chooz und MicroBooNE gemacht wurde.

Das LIGO-Experiment besteht darin, einzelne Ereignisse mit einer charakteristischen Form zu detektieren, die in weniger als einer Sekunde stattfinden. Angesichts der hohen Einsätze und der Tatsache, dass möglicherweise nur ein oder wenige Ereignisse erkannt werden, war es sinnvoll, Probeläufe des Erkennungsprotokolls durchzuführen, um seine Zuverlässigkeit und Genauigkeit zu bewerten.

Der LHC überwacht Millionen von Kollisionen pro Sekunde, und die Ereignisse, die zur Entdeckung des Higgs-Bosons führten, wurden über Monate und Jahre aufgebaut. Die Schlussfolgerung, dass das Higgs-Boson existiert, ergibt sich nicht aus einem (oder auch nur wenigen) Ereignissen, daher wäre es nicht sinnvoll, das Nachweisprotokoll auf die gleiche Weise wie für Gravitationswellen zu testen.