Was ist die Vollständigkeit einer Beobachtung und wie berechne ich sie?

Viele Publikationen schreiben von „Vollständigkeit“. Ich habe eine vage Vorstellung davon, dass es mit dem Verhältnis zu tun hat, wie viele Quellen einer Beobachtung entdeckt werden und wie viele Quellen sich tatsächlich in diesem Bereich befinden. Kann mir aber bitte jemand erklären:

a) Was ist die Definition von Vollständigkeit?
b) Wie berechnet man die Vollständigkeit einer Beobachtung?

Als Beispiel: Smolčić et al. 2008 schreiben über Vollständigkeit. Bitte werfen Sie einen Blick auf A New Method to Separate Star-forming from AGN Galaxies at Intermediate Redshift: The Submillijansky Radio Population in the VLA-COSMOS Survey

Ich wollte um ein Blockzitat bitten, aus dem "Vollständigkeit" in dem verlinkten Papier erscheint, aber es kommt 27 Mal vor! Zum Beispiel; „Abschnitt 4.1.2. Vollständigkeit und Kontamination durch die photometrische Auswahl“

Antworten (1)

a) Was ist die Definition von Vollständigkeit?


Vollständigkeit ist die Anzahl von Objekten in einem Datensatz, die über der vorhandenen Anzahl erkannt werden. In der Astronomie wird die Vollständigkeit oft für eine bestimmte scheinbare Helligkeit oder Flussdichte geschätzt. Beispielsweise haben wir für Quellen, die so hell wie die Sonne sind (-27 Magnitude), eine Vollständigkeit von 1. Das heißt, wir haben alle Quellen in der Himmelssphäre mit der Magnitude der Sonne entdeckt. Wenn wir zu sehr dunklen Objekten wie winzigen Stücken Weltraumschrott in Erdumlaufbahnen kommen, sinkt unser Vollständigkeitsverhältnis dramatisch.

b) Wie berechnet man die Vollständigkeit einer Beobachtung?


Auf einer ROC-Kurve ist Vollständigkeit die True-Positive-Rate oder die y-Achse, wenn alle Objekte beobachtet wurden (danke @ProfRob!). Wenn nur ein Bruchteil der Objekte beobachtet wurde, ist Vollständigkeit dieser Bruchteil multipliziert mit der True-Positive-Rate. Beachten Sie, dass ein Klassifikator nur eine bessere Vollständigkeit auf Kosten höherer Falsch-Positiv-Raten liefert. Hier ist ein hervorragendes Beispiel für ROC-Kurven für verschiedene Algorithmen, die Quasare von Sternen unterscheiden:

Das linke Feld zeigt Daten, die bei der farbbasierten photometrischen Klassifizierung von Sternen und Quasaren verwendet werden. Sterne werden durch graue Punkte angezeigt, während Quasare durch schwarze Punkte angezeigt werden. Das rechte Feld zeigt ROC-Kurven für die Quasaridentifikation basierend auf den Farben u - g, g - r, r - i und i - z.

Geben Sie hier die Bildbeschreibung ein

Wenn Sie die True-Positive-Rate nicht kennen, können Sie möglicherweise eine Simulation durchführen, bei der Sie Objekte in Ihren Datensatz einfügen und bestimmen, welcher Teil davon von Ihrem Algorithmus gefunden wird. Dadurch erhalten Sie eine Einschätzung Ihrer Vollständigkeit. Matlab hat zum Beispiel eine spezielle Funktion für die ROC-Kurven-Monte-Carlo-Simulation .

Die Richtig-Positiv-Rate sagt Ihnen nur dann die Vollständigkeit Ihrer Probe, wenn Sie alle Objekte beobachtet haben. zB arbeite ich an der Clusterzugehörigkeit und kann ROC-Kurven erzeugen. Sie sagen mir nicht, wie vollständig meine Probe ist. Dazu muss ich wissen, welcher Anteil der Objekte beobachtet wurde.
Danke für deinen Kommentar! Ich habe eine Anschlussfrage. Wie simuliert man die Daten? Ich erwarte so etwas wie: 1. Entfernen echter Quellen aus den Daten, wobei nur das Rauschen und die Artefakte übrig bleiben, 2. Einfügen gefälschter Quellen. Wie findet man die richtige Verteilung für 2. und spielt die Morphologie der Quelle eine Rolle? (wenn möglich wäre eine Antwort im Kontext der Radioastronomie am besten).
@kelpfish Gerne! Meines Erachtens sprengt Ihre Anschlussfrage den Rahmen des Kommentarbereichs. Ich würde vorschlagen, es als separate Astronomy Stack Exchange Question zu stellen.