原文:http://blog.csdn.net/OrthocenterChocolate/article/details/38596633
本文将介绍一些数据挖掘、机器学习、信息检索等领域中常用的一些相似性、相关性度量指标:
(1)Euclidean Distance(欧几里德距离、欧氏距离)
设有两个向量
它们之间的Euclidean Distance为:
(2)Manhattan Distance(曼哈顿距离)
设有两个向量
它们之间的Manhattan Distance为:
(3)Minkowsk Distance(闵可夫斯基距离)
设有两个向量
它们之间的Minkowsk Distance为:
(4)Hamming Distance(海明距离)
Hamming Distance可以用来度量两个串(通常是二进制串)的距离,其定义为这两个二进制串对应的位有几个不一样,那么海明距离就是几,值越小越相似。例如x=1010,y=1011,那么x和y的海明距离就是1。又如x=1000,y=1111,那么x和y的海明距离就是3。
(5)Jaccard Coefficient(Jaccard 系数)
Jaccard Coefficient用来度量两个集合的相似度,设有两个集合
例如
(6)Pearson Correlation Coefficient(皮尔森相关系数)
设有两个向量
它们之间的Pearson Correlation Coefficient为:
(7)Cosine Similarity(余弦相似度)
设有两个向量
它们之间的Cosine Similarity为:
(8)Mahalanobis Distance(马氏距离)
设有两个向量
它们之间的Mahalanobis Distance为:
其中
(9)Kullback-Leibler Divergence(KL散度)
KL散度用来度量两个分布之间的距离,分布P和分布Q的KL散度定义为:
(10)PMI (Pointwise Mutual Information,点对互信息)
PMI利用co-occurance来衡量两个东西x和y的相似度,定义为:
其中
(11)NGD(Normalized Google Distance)
NGD可以用来度量两个东西x和y之间的相关性,作用和PMI有点类似,定义为:
其中