雅卡尔指数 (Jaccard index)

雅卡尔指数,或者称为交并比、雅卡尔相似系数,可以用于比较样本集的相似性与多样性。其定义为两个集合交集大小与并集大小之间的比例:




formula

雅卡尔距离(Jaccard distance)则用于量度样本集之间的不相似度,其定义为1减去雅卡尔系数。

比如:

A <- c(0,1,2,5,6)
B <- [0,2,3,4,5,7,9]
jacc_index <- length(intersect(A, B)) / length(union(A, B))
# 即33.33%

当A和B是空集时,定义jaccard index为1。

对于非对称二元属性而言(比如说对于患癌症和不患癌症的属性而言,不患癌症是0,患癌症是1,那么0的数量远远大于1,但是我们却更关注1的数量):
M11 - A和B中都是1;
M01 - A中是0,B中是1;
M10 - A中是1,B中是0;
M00 - 两者都是0.

雅卡尔指数为(由于M00过多不予考虑):


©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 1. 关于诊断X线机准直器的作用,错误的是()。 (6.0 分) A. 显示照射野 B. 显示中心线 C. 屏蔽多...
    我们村我最帅阅读 10,808评论 0 5
  •   在目前的自然语言处理、数据挖掘以及机器学习中,相似性度量算法是一种比较常用的算法,是文本计算的基础。相似性度量...
    老羊_肖恩阅读 13,002评论 1 4
  • 数据的构成:对象(object)及其属性(attribute) 属性是对象的性质或特性属性也称作变量(variab...
    EvanForEver阅读 1,443评论 0 2
  • 201. M-Q型显影液组合是()。 (2.0 分) A. 米吐尔与菲尼酮的组合 B. 对苯二酚和菲尼酮的组合 C...
    我们村我最帅阅读 3,621评论 0 4
  • 一、机器学习中的相似性度量 在做分类时常常需要估算不同样本之间的相似性度量(Similarity Measurem...
    vieo阅读 955评论 0 0