Ähnlichkeit zwischen Positionshäufigkeitsmatrizen

Ich muss die Ähnlichkeit zwischen einer Reihe von Positionsfrequenzmatrizen überprüfen (um schließlich zu sehen, ob es einen signifikanten Unterschied zwischen 2 Gruppen von 8 Matrizen gibt).

Ein vereinfachtes Beispiel für zwei Matrizen finden Sie unten (tatsächlich habe ich 250x3-Matrizen). Die Werte sind relative Häufigkeiten der Kategorien 1..5 in jeder Spalte, dh die Summe jeder Spalte ist gleich 1. Die entsprechenden Spalten in den Matrizen können in der Größe variieren, wie zwischen den Spalten A2 und B2, oder in der Verteilung, wie in den Spalten A3 und B3 Spaltenpaar. Das unterschiedlichste Spaltenpaar ist A1 und B1.

    |   A1      A2      A3      |   B1      B2      B3
-------------------------------------------------------
1   |   0,00    0,20    0,20    |   1,00    0,15    0,00
2   |   0,00    0,50    0,50    |   0,00    0,60    0,10
3   |   0,00    0,20    0,20    |   0,00    0,15    0,20
4   |   0,00    0,10    0,10    |   0,00    0,10    0,50
5   |   1,00    0,00    0,00    |   0,00    0,00    0,20

Was wäre in diesem Fall das beste Maß für (Un)ähnlichkeit?

Einige Möglichkeiten, die ich gefunden habe:

Berechnen Sie den euklidischen Abstand zwischen jedem Spaltenpaar und wandeln Sie ihn in Ähnlichkeit um. (wie in http://rsat.sb-roscoff.fr/help.compare-matrices.html#_dis_similarity_metrics )

Wäre der Pearson-Korrelationskoeffizient dafür besser geeignet als die euklidische Distanz? (wie in https://academic.oup.com/bioinformatics/article/21/3/307/237585 )

Mein Denken kann völlig falsch sein, da mein Wissen auf diesem Gebiet sehr begrenzt ist, daher wären alle Vorschläge sehr willkommen, auch wenn sie meinen Ansatz völlig umkehren würden.

Es gibt eine Antwort in Abstand/Ähnlichkeit zwischen zwei Matrizen , aber sie ist sehr allgemein, und ich hoffe, dass es für die Positionsfrequenzmatrix etwas Spezifischeres geben sollte.

----
Entschuldigung für das Crossposting aus dem Statistikforum ("Cross validated"), aber dieses Forum hat anscheinend mehr Benutzer, und eine ähnliche Frage zu "Cross validated" hat lange keine Antwort: https:// stats .stackexchange.com/questions/264183/looking-for-measures-of-similarity-for-two-matrices-of-pairwise-similarities-d , also habe ich meine Hoffnung hierher umgeleitet.

Antworten (1)

Angenommen, Sie erhalten zwei Matrizen ( A , B ) deren Spalten Einheitsvektoren in der L1-Norm sind.
Lassen Sie uns die bezeichnen k T H Spalte von A als A k = A e k und ebenso für B .

Ein einfaches Maß für die Ähnlichkeit zwischen den Spalten dieser beiden Matrizen ist

σ J k = A J T B k A J 1 B k 1 = A J T B k
Dies ist analog zur Cosinus-Ähnlichkeit, verwendet jedoch die L1-Norm anstelle der L2-Norm.