Ich möchte den Jaccard-Index zwischen zwei Verbindungen berechnen. Was ist der Algorithmus? Ich habe danach gesucht, es gibt nur die Formel, aber wie man es auf Verbindungen anwendet, ist mir nicht bekannt. Kannst du helfen?
Der Jaccard-Index ist ein Maß für die Ähnlichkeit zwischen zwei Sätzen. Sehen Sie sich hier den Wikipedia-Artikel an . Es ist sehr einfach zu berechnen:
Der Jaccard-Ähnlichkeitskoeffizient für die Sätze X und Y ist definiert als:
J(X,Y) = |intersection(X,Y)| / |union(X,Y)|
Wo | |
gibt die Größe (Anzahl der Elemente) der Menge an. Stellen Sie sich vor, Sie haben zwei Sätze X und Y, die wie folgt definiert sind:
X = {A, B, C, D}
Y = {C, D, E, F, G}
Dann:
intersection(X,Y) = {C, D} => |intersection(X,Y)| = 2
union(X,Y) = {A,B,C,D,E,F} => |union(X,Y)| = 5
Deshalb:J(X,Y) = 2/5
Alternativ wäre die Jaccard-DistanzD(X,Y) = 1 - J(X,Y) = 1 - 2/5 = 3/5
In der Biologie wurde der Jaccard-Index verwendet, um die Ähnlichkeit zwischen Netzwerken zu berechnen, indem die Anzahl gemeinsamer Kanten verglichen wurde (z. B. Bass, Nature methods 2013 ) .
Wenn Sie es auf Verbindungen anwenden, können Sie, wenn Sie zwei Sätze mit unterschiedlichen Verbindungen haben, anhand dieses Indexes feststellen, wie ähnlich die beiden Sätze sind. Die Elemente auf den Mengen, in diesem Fall die Verbindungen, entsprechen in meinem Beispiel A, B, C usw.
Dateiunterwasser
ddiez
WYSIWYG
Mädchen101
Mädchen101