Ich habe die Anzahl der Drüsen in einer Pflanze dieses Jahr und letztes Jahr gezählt. Mein vollständiger Datensatz enthält ungefähr 20 Pflanzen (ich habe die Daten von 10 der Pflanzen hier reproduziert). Ich möchte zeigen, dass die Pflanzen in diesem Jahr durchweg niedrigere Drüsenzahlen hatten als letztes Jahr, aber ich möchte die Leser nicht mit zu vielen Datenpunkten in ihren Gesichtern verunsichern. Welche Art von Grafik/Diagramm sollte ich verwenden, um diesen Trend am besten darzustellen?
Gland Count
PlantID 2015 2016
1 22.92 19.50
2 11.67 7.12
3 19.67 15.33
4 22.33 12.00
5 20.92 18.58
6 25.83 23.83
7 25.67 32.17
8 22.83 17.00
9 28.42 26.25
10 17.92 16.92
Zwei Arten von Diagrammen kommen mir in den Sinn.
Ein einfaches zweischichtiges Histogramm, das die Verteilung der Drüsenzahlen für jedes Jahr zeigt. Dies ist eine Kerndichte im Gegensatz zu einem Histogramm, aber es vermittelt die Idee.
Liniendiagramm mit Jahr auf der x-Achse und Drüsenzahl auf der y-Achse, mit einer farbigen Linie für jede Pflanze. Dies würde ein wenig mehr Details zeigen und wäre besser, wenn sich die mittlere Drüsenzahl insgesamt nicht viel ändern würde, aber bei den Individuen signifikant abnehmen würde .
Eine Lösung besteht darin, genau die Daten darzustellen, die Sie zu beschreiben versuchen – das Delta in Ihren Werten.
Stellen Sie sich ein Balkendiagramm (mit Konfidenz-/Fehlerbalken) vor, das die Anlagennummer entlang der x-Achse und die y-Achse zeigt, die die Änderung der Zählung mit +ve- und -ve-Werten zeigt.
Anhand der Daten aus Ihrer Frage zeigt diese Visualisierung beispielsweise deutlich, dass alle Werte bis auf eins von 2015 auf 2016 gesunken sind (bitte verzeihen Sie das grobe Diagramm ohne Titel usw.):
Natürlich wäre es auch hilfreich, eine Grafik der absoluten Werte zu zeigen, und es ist obligatorisch, auch eine Tabelle mit den genauen Werten beizufügen.
Stellen Sie sicher, dass die Visualisierung nicht irreführend ist (wenn Sie beabsichtigen, die Visualisierung zu verwenden, um für eine konsequente Reduzierung zu argumentieren):
Visualisierung:
Einfacher Vergleich von Durchschnittswerten
Am einfachsten und gebräuchlichsten ist es, den Mittelwert und den Standardfehler für jedes Jahr anzuzeigen.
Wenn Sie mehr Jahre haben, möchten Sie vielleicht eine Angabe in der Grafik hinzufügen, die den p-Werten paarweiser Vergleiche entspricht, aber ich glaube nicht, dass Sie mehr als zwei Jahre haben.
Unten ist ein kurzer R-Code, der die Arbeit erledigt. Beachten Sie, dass ich den Standardfehler mit Bootstrap geschätzt habe. Vielleicht möchten Sie auf die Agresti-Coull- Methode umsteigen. Ich persönlich mag Bootstrap. Stellen Sie sicher, dass Sie die Standardfehler verwenden, die angesichts des statistischen Tests, den Sie mit diesen Daten durchgeführt haben, sinnvoll sind.
# Function to calculate the standard error
bootstrap_SE = function(x,reps=1e5, SEorCI="SE")
{
means = vector("numeric",reps)
for (rep in 1:reps)
{
means[rep] = mean(sample(x,replace=TRUE))
}
if (SEorCI == "SE") return ( sqrt(var(means)) )
if (SEorCI == "CI") return ( quantile(means, c(0.025,0.975)) )
}
# Your data
d2015 = c(19.50, 7.12, 15.33, 12.00, 18.58, 23.83, 32.17, 17.00, 26.25, 16.92)
d2016 = c(22.92, 11.67, 19.67, 22.33, 20.92, 25.83, 25.67, 22.83, 28.42, 17.92)
# Calculate the averages
yAverages = c(mean(d2015),mean(d2016))
# Calculate standard errors
SE = c(bootstrap_SE(d2015),bootstrap_SE(d2016))
# x-axis
x = c(2015,2016)
# Make the plot
plot(y=yAverages,x=x, xlab="year", ylab="gland count", ylim=c(min(yAverages-SE),max(yAverages+SE)), xlim = c(2014.4,2016.5), xaxp=c(2015,2016,1))
arrows(
x0=x,
y0=yAverages,
x1=x,
y1=yAverages+SE,
angle=90
)
arrows(
x0=x,
y0=yAverages,
x1=x,
y1=yAverages-SE,
angle=90
)
Konzentrieren Sie sich auf systematische Unterschiede
Wenn Ihr Ziel darin besteht, auf der Existenz systematischer Unterschiede für jede Pflanze zu bestehen, würde ich die Lösung von @kwah (+1) empfehlen. Ich mag die Lösung von @Shawn nicht ganz (nichts für ungut), ich fand die Diagramme kompliziert, nicht intuitiv für kategoriale Variablen und ich fand, dass sie das Konzept der systematischen Unterschiede im Vergleich zur Lösung von @kwah schlecht vermitteln.
Wenn Sie daran denken, einen Paartest durchzuführen, dann klingt es nach einer cleveren Idee, die Lösung von @kwah zu verwenden.
James
Remi.b
RHA
WYSIWYG
RHA