Eine Referenzanforderung für experimentelle Daten aus der realen Welt [geschlossen]

Ich wundere mich immer wieder, wie die Experimentalphysiker hin und wieder neue Teilchen entdecken, deren Abmessungen/Eigenschaften/Masse/Ladung mehrere Größenordnungen unter dem von allem Sichtbaren/Wahrnehmbaren liegen. So wie es Ingenieure tun, stellen sie wohl auch eine extrem komplizierte Ausrüstung auf und führen einige ziemlich komplizierte Experimente durch und messen eine physikalische Größe, sagen wir (verzeihen Sie, wenn mein Beispiel schlecht ist) eine Spannung oder eine magnetische Feldstärke oder könnte irgendetwas davon abhängig sein der Versuchsaufbau. Nun vergleichen sie diesen gemessenen Spannungsverlauf mit dem theoretisch zu erwartenden und belegen dann die Hypothese. (Das ist das Schwierigste, was ich mir vorstellen kann).

Jetzt ist meine Frage, wo ich einen Datensatz (vorzugsweise eine kontinuierliche Variation eines physikalischen Parameters in Bezug auf einen anderen ... kann mit ausreichender Abtastfrequenz abgetastet werden) zusammen mit dem Kontext des Experiments (so minimal wie möglich, aber ausreichend) finden kann. damit ich eine Datenverarbeitung auf meine eigene Weise durchführen kann, damit ich die Hypothese oder ähnliches überprüfen kann. Einfach ausgedrückt, ich brauche einige wirklich coole Daten aus der realen Welt (in Form von Signalen).

Gibt es sowas im Internet oder wo finde ich sowas? Bitte schlagen Sie mir etwas vor, das Signalverarbeitung beinhaltet.

Wikifishing, da es auf diese Frage keine einzige richtige Antwort gibt.

Antworten (4)

Update: April 2016 Die CMS-Kollaboration hat etwa 300 Terabyte an LHC-Daten (und die Tools und Tutorials, die benötigt werden, um alles zu verstehen) offen zugänglich gemacht . Die Daten werden auf Partikelspurebene rekonstruiert, sind also nicht wirklich roh, aber es gibt noch viel zu wissen, um diese Daten sinnvoll zu nutzen.


Die Rohdaten moderner Teilchenphysik-Experimente sind viele Terabyte (sogar Petabyte) groß und ziemlich kompliziert.

Für Collider-Experimente sind die Detektoren zusammengesetzte, geschichtete Geräte mit drei oder mehr unterschiedlichen Technologien, die von fünf oder mehr unterschiedlichen Subsystemen verwendet werden, plus zusätzliche Überwachung der Detektorleistung, Temperatur- und Feuchtigkeitsbedingungen in der Experimentierhalle, Daten, die von der Beschleunigerbetriebsmannschaft über den Zustand bereitgestellt werden des Strahls, und so weiter und so fort. Es gibt Zehntausende von einzelnen Detektorkanälen und Hunderte von "langsamen" Geräten (wie die Thermomente, Magnetströme, Strahlstrommonitore usw.). All dies wurde von der Trigger-Hardware vorgefiltert (und genau, welche Filterung angewendet wurde, ändert sich im Laufe der Zeit).

Bei Neutrino-Experimenten sind die Daten detaillierte Informationen über die von Fotoröhren detektierte Ladung (eine Kombination aus Gesamtladung in einem Fenster, Spitzenspannung, Spitzenzeit, Einsetzzeit und/oder digitalisierten Wellenformen) für Hunderte oder Tausende von PMTs. Plus Umgebungsüberwachung, wie sie von den Collider-Leuten durchgeführt wird.

In beiden Fällen gibt es Unmengen von Kalibrierungsdaten, Änderungen der Betriebsbedingungen während des Datenerfassungszeitraums und manchmal den Austausch oder die Neueinstellung von Teilsystemen auf halbem Weg.

Typischerweise gibt es viele zehntausend Zeilen von benutzerdefiniertem Computercode zum Öffnen und Verarbeiten der Datendateien. Von Physikern geschriebener Code. Nun, Teilchenphysiker sind beim Codieren etwas professioneller als einige ihrer Kollegen, aber das bedeutet nicht , dass sie hochmoderne Prozesse und schönen Code haben.

Es dauert im Allgemeinen viele tausend Stunden von Doktoranden und Postdocs, um dies auf etwas zu reduzieren, aus dem die Physik extrahiert werden kann.

Es gibt einen Grund, warum wir dies "Big Science" nennen.


Das heißt, Sie können die Daten im Allgemeinen abrufen . Letztlich. (Jede Kollaboration wird ihre für eine Weile halten, um sicherzustellen, dass sie zuerst veröffentlicht wird.)

Wie kommst du darauf? Einfach fragen.

Aber Sie müssen Ihren eigenen Speicher bereitstellen (und möglicherweise Hardware kopieren); kommen Sie dorthin, wo die Daten aufbewahrt werden; verstehen, dass die Dokumentation über Hunderte oder Tausende interner (der Zusammenarbeit) Dokumente verstreut sein wird, die von verschiedenen Autoren geschrieben wurden, von denen einige Englisch als Zweit- oder Drittsprache haben (und einige Eigenheiten aufweisen können); und diese Hilfe bei der Interpretation all dessen wird knapp werden, da diese Leute weitergezogen sind und andere Projekte sie beschäftigt haben. Und Sie müssen die Leute mit den Daten möglicherweise davon überzeugen, dass Sie die Kapazität haben, sie zu verwalten.

Bei der Verfügbarkeit von teilweise verarbeiteten Datensätzen bin ich mir nicht so sicher, aber Sie könnten auch danach fragen. Das Schlimmste, was passieren kann, ist, dass man „Nein“ sagt. Aber selbst wenn Sie dies bekommen können, stellen Sie sich nicht vor, dass es einfach ist, damit zu arbeiten.


Wenn ich Sie nicht davon abgebracht habe, lassen Sie mich eine praktische Methode für den Einstieg vorschlagen. Gehen Sie zur nächsten Universität, die eine Gruppe für Kern- oder Teilchenphysik hat, und bitten Sie um Hilfe. Wirklich. Es gibt immer einen Bedarf an Laboraffen, und Sie werden im Laufe der Zeit lernen, weil Sie die Arbeit nicht erledigen können, wenn sie Ihnen nichts beibringen.

Dabei werden Sie

  1. Erfahren Sie, wie einige der Subsysteme funktionieren. Bekommen Sie ein Gefühl dafür, welche Art von Rohdaten sie zurückgeben und wie sie zu weniger Rohdaten verarbeitet werden. Wenn Sie fragen, werden Ihnen die Leute sagen, wie die weniger rohen Daten in noch mehr physikähnliche Informationen umgewandelt und schließlich in Partikel rekonstruiert werden können.
  2. Knüpfen Sie einige Kontakte im Geschäft. Fangen Sie an zu sagen : „Ich arbeite mit Prof. Smith und Podunk U.“ ist viel besser als "Ich bin interessiert." wenn es um den Zugriff auf Daten geht.

Lieber Rajesh, Sie möchten die von Experimentatoren bekannt gegebenen Daten, die zur Entdeckung neuer Teilchen verwendet wurden. Das ist einfach. Schreiben Sie die URL

http://arxiv.org/abs/hep-ex/xxxxxxx

wobei die sieben Kreuze zufällige Ziffern sind - das erste sollte besser 9 oder 0 sein, weil die ersten beiden ein Jahr sind. Die dritte und vierte Ziffer ist der Monat, und die letzten drei Ziffern sollten nicht zu hoch sein. Sie können damit spielen und Zehntausende von Papieren der Art finden, die Sie beschrieben haben.

Zum Beispiel wird einer von ihnen sein

http://arxiv.org/abs/hep-ex/9503003

Dabei handelt es sich um die Abhandlung über die Beobachtung des Top-Quarks, des jüngsten Elementarteilchens, das 1995 entdeckt wurde.

Ich könnte Ihnen auch Zehntausende ähnlicher Artikel und Lösungen zu Ihrem Problem auf dem Gebiet der Physik der kondensierten Materie, Chemie, Biologie, Geologie oder Dutzender anderer Wissenschaftsdisziplinen geben. Sie sehen die Fülle von Lösungen, also war Ihre Frage vielleicht etwas zu vage? ;-)

Bitte schlagen Sie mir etwas vor, das Signalverarbeitung beinhaltet.

Zumindest in der Teilchenphysik haben Sie keinen Zugriff auf diese gewünschten Informationen auf niedriger Ebene, es sei denn, Sie sind Teil der experimentellen Gruppe, die die Messung tatsächlich durchführt. Dafür gibt es viele Gründe, einige politische, andere eher physische. Lassen Sie uns beide schnell kommentieren.

Erstens ist es viel Arbeit, diese Partikel zu messen, und die Kollaborationen wollen die Daten selbst nutzen, bevor sie jemand anderes einsehen kann. Sie zeigen Ihnen also nicht die Rohdaten, bevor sie alles extrahiert haben, was sie können. „Ok, zeig mir Daten aus alten Experimenten“, magst du sagen. Jetzt kommt ein weiteres Problem, die Datenmenge ist einfach überwältigend. Es ist nichts, was man auf eine DVD aufnehmen und mit nach Hause nehmen oder von Megaupload herunterladen kann.

Was das eher körperliche Problem angeht. Sie fragen ausdrücklich nach Rohdaten auf sehr niedrigem Niveau. Um Spannungen in Teilchen umzuwandeln, sind viele andere Annahmen erforderlich. Zum Beispiel, wie die Wechselwirkung zwischen den Teilchen und den Detektoren abläuft, wie das Signal an den Detektoren verarbeitet wird und so weiter. Jedes Experiment verbringt buchstäblich Jahre damit, diese Wechselwirkungen zu verstehen, um Software zu entwickeln, die die Rekonstruktion ermöglichtdes Signals und testen sie, um zu wissen, ob die Genauigkeit dieser Rekonstruktion ausreicht, um alles, was Sie messen möchten, richtig zu messen. Nun, selbst wenn Sie Zugang zu den Rohdaten erhalten, wer kann garantieren, dass Sie diese richtig rekonstruieren? Die Menschen, die die Daten gemessen haben, wollen nicht, dass andere bei ihrer Arbeit falsche Schlüsse ziehen. Es ist eine Art wissenschaftliche Verantwortung. Die einzigen Informationen, auf die Sie heute wirklich zugreifen können, sind die hochrangigen, bereits analysierten Daten, die in jedem Papier zu finden sind (siehe Antwort von Lubos oben).

Es gibt interessante Vorschläge, mehr Informationen öffentlich zugänglich zu machen. Eines, das Sie sich vielleicht ansehen möchten, ist das Recast- System. Aber etwas Ähnliches für alle Experimente ist noch lange nicht Realität.

Es gab einige Re-Analysen von Low-Level-Daten. Sobald die Priorität sichergestellt ist, werden die Leute entspannter in Bezug auf den Zugang, obwohl sie, wie Sie sagen, möglicherweise verlangen, dass Sie sie davon überzeugen, dass Sie wissen, was Sie tun.
@dmckee: Vielen Dank für die Antworten. Es ist ziemlich überwältigend, solche Details zu kennen. Aber mein Bedarf ist nicht so groß. Ich beabsichtige natürlich nicht, die ganze Verarbeitung durchzuführen, die von großen Gruppen sehr sorgfältig durchgeführt wird und es auch unmöglich ist, sie davon zu überzeugen, dass ich es könnte und zu versichern, dass ich weiß, was ich tue, und nicht zuletzt sogar denke an so etwas. Alles, was ich brauche, ist ein Signal aus der realen Welt, vorzugsweise aus der Welt der Physik ... damit ich die mathematische Natur eines Signals aus der realen Welt studieren kann ... Ich beabsichtige nicht, irgendwelche physikalischen Schlussfolgerungen daraus zu ziehen.
@Rajesh: Definiere "Signal". Sie könnten einige Artikel lesen, wie Luboš vorschlägt, um eine Vorstellung davon zu bekommen, wie vielfältig und abstrakt diese Daten sind. Wenn ich als Teilchenphysiker eine Arbeit über eine neue Entdeckung lese, muss ich über die Zahlen und den Text nachdenken, um herauszufinden, was sie getan haben und warum sie es für wichtig halten. Jedes Mal.
@dmckee: Signal zum Beispiel ist eine Spannungsvariation mit Zeit am Ende des Mikrofons, die die Schalldruckvariationen davor erfasst. Dieses Signal wird abgetastet und unter Verwendung eines A/D-Wandlers für Speicherungs-, Wiedergabe- und Analysezwecke digitalisiert. Ich arbeite an der Verarbeitung von menschlich erzeugten Sprachsignalen (akustischen Signalen). Ich bin neugierig, mir einige Signale aus der Welt der Physik anzuschauen und mit ihnen zu arbeiten, wo ich die wahre Natur von Signalen in der realen Welt studieren kann. Selbst ein so einfaches Signal wie ein Sprachsignal ist sehr kompliziert und wirft so viele unerklärliche Dinge auf.
@Rajesh: Jede Detektorkategorie hat ihre eigenen Signaleigenschaften. Für PMTs seine unimodalen, negativ verlaufenden Ladungsimpulse, für Drahtkammern seine unimodalen Stromimpulse auf Sammeldrähten, aber bimodal auf Induktionsdrähten (wo diese verwendet werden). Germanium- und Siliziumdetektoren haben andere Eigenschaften usw. Gehen Sie zu Ihrer örtlichen Universität und fragen Sie einen Professor für Kern- oder Teilchenphysik. Sie werden wahrscheinlich ein paar Detektoren in ihrem Labor haben.

Hier können Sie rohe (oder verarbeitete) Daten aus verschiedenen beobachtenden Kosmologieprojekten (z. B. COBE und WMAP) herunterladen:

http://lambda.gsfc.nasa.gov/product/map/current/

Als Projekt könnte man damit das berühmte Winkelleistungsspektrum der kosmischen Mikrowellen-Hintergrundstrahlung nachrechnen.