So berechnen Sie den Jaccard-Index [geschlossen]

Ich möchte den Jaccard-Index zwischen zwei Verbindungen berechnen. Was ist der Algorithmus? Ich habe danach gesucht, es gibt nur die Formel, aber wie man es auf Verbindungen anwendet, ist mir nicht bekannt. Kannst du helfen?

Wie genau möchten Sie es verwenden? In der Ökologie wird es normalerweise verwendet, um zu vergleichen, wie ähnlich Artengemeinschaften sind, aber Sie beziehen sich nur auf zwei Verbindungen. Welche Entitäten möchten Sie vergleichen? Was die Codierung betrifft, so finden Sie wahrscheinlich viele nützliche Informationen in den derzeit 345 StackOverflow-Fragen zum Jaccard-Koeffizienten/Index
Ich habe das Detail über "zwei Verbindungen" vermisst. Meine Antwort enthält eine Referenz für zwei Sätze von Verbindungen, aber es wäre gut, wenn Sie klarstellen würden, was Sie genau meinen.
Wie bezeichnet man eine Verbindung? nur durch seine zusammensetzung?? Bei C₃H₆O₃ kann es sich zB um Milchsäure, Glycerinaldehyd oder Trioxan handeln.
Ja, bezeichnen Sie eine Verbindung durch ihre Atome, aus denen sie bestehen.
oder im SMILES-Format

Antworten (1)

Der Jaccard-Index ist ein Maß für die Ähnlichkeit zwischen zwei Sätzen. Sehen Sie sich hier den Wikipedia-Artikel an . Es ist sehr einfach zu berechnen:

Der Jaccard-Ähnlichkeitskoeffizient für die Sätze X und Y ist definiert als:

J(X,Y) = |intersection(X,Y)| / |union(X,Y)|

Wo | |gibt die Größe (Anzahl der Elemente) der Menge an. Stellen Sie sich vor, Sie haben zwei Sätze X und Y, die wie folgt definiert sind:

X = {A, B, C, D}
Y = {C, D, E, F, G}

Dann:

intersection(X,Y) = {C, D} => |intersection(X,Y)| = 2
union(X,Y) = {A,B,C,D,E,F} => |union(X,Y)| = 5

Deshalb:J(X,Y) = 2/5

Alternativ wäre die Jaccard-DistanzD(X,Y) = 1 - J(X,Y) = 1 - 2/5 = 3/5

In der Biologie wurde der Jaccard-Index verwendet, um die Ähnlichkeit zwischen Netzwerken zu berechnen, indem die Anzahl gemeinsamer Kanten verglichen wurde (z. B. Bass, Nature methods 2013 ) .


Wenn Sie es auf Verbindungen anwenden, können Sie, wenn Sie zwei Sätze mit unterschiedlichen Verbindungen haben, anhand dieses Indexes feststellen, wie ähnlich die beiden Sätze sind. Die Elemente auf den Mengen, in diesem Fall die Verbindungen, entsprechen in meinem Beispiel A, B, C usw.

Chemische Verbindungen hätten Atome, also erstellen wir im Grunde für jede Verbindung eine Reihe von Atomen und finden dann den Index. Wird das reichen?