Wie sehen die Daten in verschiedenen Analysestadien einer Teilchenkollision aus?

Ich habe die Nachrichten über ihre Arbeit am LHC-Teilchenbeschleuniger im CERN verfolgt. Ich frage mich, wie die Rohdaten aussehen, die zur Visualisierung der Kollisionen verwendet werden. Vielleicht kann jemand eine Beispiel-csv oder txt bereitstellen?

Denken Sie daran, dass Daten vom LHC in Terrabytes vorliegen und die Verarbeitungsanforderungen eine völlig neue Art der Datenweitergabe geschaffen haben, die als GRID bezeichnet wird. cdsweb.cern.ch/record/840543/files/lhcc-2005-024.pdf . Es beschreibt den Umgang mit den Daten.
CERN hat kürzlich 300 TB an Daten freigegeben: cms.web.cern.ch/news/cms-releases-new-batch-research-data-lhc

Antworten (2)

Verschiedene Geräte erzeugen etwas unterschiedlich aussehende Daten, aber typischerweise bestehen sie aus Spannungen, die als Funktion der Zeit definiert sind. In einigen Fällen (z. B. Funkenkammern) ist die "Spannung" digital, in anderen analog.

Herkömmlicherweise ist die Zeitreihe für die Daten langsamer als die Zeiten, die die Teilchen (fast mit Lichtgeschwindigkeit) benötigen, um den Detektor zu durchqueren. So hatte man für ein einzelnes Experiment ein brauchbares Foto. Modernere Geräte sind schneller, zeigen die Daten aber immer noch so an. Hier ist ein LHC-Beispiel:

Geben Sie hier die Bildbeschreibung ein

Oben wurden die Daten für die Anzeige gemäß der Form und Geometrie des Detektors organisiert. Die Rohdaten selbst wären digitalisiert und nur eine Sammlung von Nullen und Einsen.

Es gibt typischerweise zwei Arten von Messungen, "Position" und "Energie". Die Positionsmessungen sind typischerweise binär, das heißt, sie zeigen an, ob ein Teilchen durch dieses (sehr kleine) Element gekommen ist oder nicht. Oben sind die gelben Linien Positionsmessungen.

Beachten Sie, dass einige der gelben Linien gekrümmt sind. Eigentlich sind alle zumindest teilweise gekrümmt. Dies liegt daran, dass ein starkes Magnetfeld vorhanden ist. Die Krümmung der Partikelspuren hilft bei der Bestimmung, um welche Partikel es sich handelt. Beispielsweise läuft ein schwereres Teilchen bei gleicher Geschwindigkeit und Ladung gerader.

Der Krümmungsradius ist gegeben durch:

r = m γ E p B
wo γ = 1 / 1 ( v / c ) 2 ist der Lorentzfaktor, E ist die Energie, und p ist der Schwung. Dies hilft bei der Bestimmung des Teilchentyps und der Energie.

Energiemessungen sind im Allgemeinen analog. Darin erhält man einen Hinweis darauf, wie viel Energie das Teilchen bei seinem Vorbeiflug deponiert hat. Oben sind die hellblauen und roten Daten Energiemessungen. Bei diesen Messungen erhält man keine so genaue Position, aber die Amplitude ist sehr genau.

Beachten Sie, dass diese Ansicht nicht einmal im Entferntesten "roh" ist. Eine beträchtliche Rekonstruktion und Verfolgung wurde bereits durchgeführt.
Das ist einfach erstaunliche Wissenschaft, danke. Ich würde immer noch gerne einige der Daten sehen, die von den Sensorelementen generiert werden, und möglicherweise auch in verschiedenen Rekonstruktions-/Aggregationsstadien. Können Sie dabei helfen?
Ein weiterer Kommentar: "Typischerweise ist die Zeitreihe für die Daten langsamer als die Zeiten, die die (nahezu lichtschnellen) Teilchen benötigen, um den Detektor zu durchqueren." ist meistens falsch. Die meisten Detektorelemente haben eine Zeitauflösung im Bereich von 1–10 ns, was einer Größenordnung von 1–10 Fuß (0,3–3 Meter) entspricht c . Im Fall eines großen Collider-Detektorpakets, wie hier abgebildet, ist das Instrument 10 Meter oder mehr auf einer Seite. In vielen Fällen wird die Flugzeit verwendet, um bei der Partikelidentifikation zu helfen.
Der Grund, warum ich frage, ist ein Gedankenexperiment zu dem Thema: „Wie könnte die Öffnung von Wissenschaftsdaten für die breite Masse helfen, ein bestimmtes Gebiet voranzubringen. Was eine dumme Frage sein mag, da jeder, der sich leidenschaftlich für Partikelkollisionsdaten interessiert, höchstwahrscheinlich bereits damit arbeitet Gibt es eine Nische im Prozess von Sensordaten >> Transformation >> Analyse >> Schlussfolgerung, die von einem Unternehmen oder einer Open-Source-Community ausgefüllt werden kann?Könnte es eine Rolle für ein gewinnorientiertes Unternehmen in Physikdaten geben, wo es für beide Seiten vorteilhaft ist ?
@dmckee; Ja, meine Erinnerung stammt aus den 1980er Jahren, ich korrigiere. @opensourcechris; Ich denke, Sie müssten mit jemandem im Labor sprechen. Ich vermute, dass das meiste von der Wissenschaft getan wird und sie sich selbst mehr vertrauen als anderen.
@Carl Sie sollten hinzufügen, dass man aus der Krümmung auch den Impuls erhält, der zusammen mit Energiemessungen hilft, die Masse des Teilchens zu bestimmen.
@opensourcechris das wäre eine Übung in Sinnlosigkeit. Die Rohdaten sind ohne die Metadaten nutzlos, einschließlich der Inhalte der Protokolle durch die Schicht, die die Detektoren betreut. Die Profitnischen entstehen, wenn die Detektoren gebaut werden. Vieles wird an die Industrie ausgelagert. Es gibt keinen zu verteilenden Gewinn aus der Datenerhebung. Die Institute zahlen sogar für die Veröffentlichungen.
@opensourcechris Ich denke, im Allgemeinen ist die Hauptsache, die Institutionen daran hindert, Daten freizugeben, die schiere Menge an Bandbreite, die erforderlich wäre, um sie allen zur Verfügung zu stellen. Der LHC zum Beispiel produziert jede Sekunde ein Petabyte an Rohdaten. Automatische Filter entfernen das Rauschen und nicht nützliche Daten und nur ein kleiner Bruchteil wird aufgezeichnet. Am Ende dieser Kürzungen werden jährlich nur noch 25 Petabyte erfasst. Dies ist eine riesige Datenmenge, nur etwa 20 % davon werden bei CERN gespeichert und der Rest wird an angeschlossene Organisationen verteilt.

Vor Jahren habe ich als Doktorand in Teilchenphysik am PHENIX - Experiment am BNL gearbeitet . Bevor ich auftauchte (ich glaube gegen Ende von Lauf 2), wurde die Hauptdatenstruktur, die für die Analyse verwendet wurde, als "Tupel" bezeichnet. Tupel waren den heute in Python verwendeten Listen ziemlich ähnlich, mit etwas mehr Struktur, um den Zugriff zu beschleunigen, und enthielten die eigentlichen Daten, die einem sogenannten "Ereignis" entsprachen (etwas Interessantes, das im Detektor passiert ist, das von den verschiedenen Subsystemen erfasst wurde und schließlich in ein Tupel geschrieben). Leider waren Tupel im Allgemeinen einfach zu groß und man musste eine kleinere Teilmenge der Einträge in den Tupeln analysieren – also wurden Mikrotupel geboren und kurz darauf Nanotupel.

Es wurden verschiedene Arten von Nano-Tupeln definiert und von den verschiedenen Arbeitsgruppen des Experiments verwendet, die unterschiedliche Teilmengen der ursprünglichen Tupel hatten. Welche Art von Nano-Tupel Sie verwendet haben, hing von der Analyse ab, die Sie durchführen wollten, und entsprach ungefähr der Arbeitsgruppe, in der Sie sich befanden. In meinem Fall war dies ein schwerer Geschmack, bei dem ich Charme studierte.

Ein Nano-Tupel könnte also so aussehen:

(x_1, x_2, ..., x_n)

wobei x_i all die verschiedenen interessierenden Größen wären, die mit dem Ereignis verbunden sind: Querimpuls, im EM-cal deponierte Energie, bla, bla, bla..

Am Ende drehte sich die Datenanalyse um die Manipulation dieser Nanotupel und belief sich auf:

  1. Senden Sie eine Anfrage an die Datenexperten, um Rohdaten zu erhalten, die von den verschiedenen Subsystemen in Form von Nano-Tupeln gesammelt wurden.
  2. Warten Sie ein paar Tage, bis die Daten auf der Festplatte angezeigt werden, da es sich um einen riesigen Datensatz handelt.
  3. Durchlaufen Sie die Ereignisse (Nano-Tupel) und filtern Sie die Dinge heraus, an denen Sie nicht interessiert waren (normalerweise Ereignisse im Zusammenhang mit Pionen).
  4. Bin die Daten in jedem Eintrag des Tupels
  5. Überlagern Sie die theoretische Vorhersage dieser Verteilungen mit dem, was Sie aus dem Tupel extrahiert haben
  6. Machen Sie Ihre Aussage darüber, was los war. (Bestätigung der Theorie, Vermutung über Meinungsverschiedenheiten usw.)

Die Wahrheit ist, dass wir uns selten die RAW-Rohdaten angesehen haben, die aus dem Detektor strömen, es sei denn, Sie hatten Schicht und ein Teil des Datenerfassungssystems hatte aus irgendeinem Grund den Betrieb eingestellt. Aber in diesem Fall waren die Daten ziemlich bedeutungslos, wenn man sie betrachtete. Sie würden sich mehr Sorgen machen, dass die Daten nicht fließen. Wenn Sie jedoch einer der Personen wären, die für die Wartung eines Subsystems (z. B. EM-cal) verantwortlich sind, würden Sie wahrscheinlich regelmäßig Kalibrierungen durchführen und regelmäßig Rohdaten von Ihrem speziellen Subsystem überprüfen, um die Kalibrierung abzustimmen und die Rohdaten zu erstellen Daten auswertbar.

Meistens waren die Rohdaten nur für das Subsystem aussagekräftig, für das Sie verantwortlich waren, und es war nicht wirklich getan, alle Rohdaten aller Subsysteme als Ganzes zu betrachten. Ich glaube nicht, dass irgendjemand diese Art von Breite über all die verschiedenen Subsysteme hatte ...

In Bezug auf die Daten für die Visualisierungen, nach denen Sie gefragt haben: Ich glaube, dies waren speziell definierte Nano-Tupel, die Einträge von genügend Subsystemen enthielten, um eine Rekonstruktion und die endgültige Visualisierung zu ermöglichen (schöne Bilder), aber ich bin mir zu 99% sicher, dass die Visualisierungen es waren. t aus den "rohen" Daten erstellt. Vielmehr wurden sie unter Verwendung dieser Nano-Tupel durchgeführt.

Wenn Sie sich auf der PHENIX-Website umsehen, können Sie einige ziemlich schicke Animationen (zumindest schick für damals) von Kollisionen im Detektor sehen. Meistens waren diese Bilder und Filme Teil einer größeren, experimentierfreudigen PR-Bemühung. Sie wurden von einem Typen namens Jeffery Mitchel erstellt, und Sie sollten ihm eine E-Mail senden, um mehr Details über das Format der von ihm verwendeten Daten zu erfahren (mitchell@bnl.gov). sie sind längst weitergezogen, sodass Sie wahrscheinlich mehr Einblick in die „Rohdaten“ erhalten können, die heute vom LHC erstellt und für diese Visualisierungen verwendet werden, wenn Sie jemanden wie ihn direkt fragen.