Jaccard相似度

定义

Jaccard 相似度 是指 两个 属性或特征 的交集属性于 并集属性的商 , 可以写作

image.png

其中F 为 属性a和 b的集合 如 分词结果, 邻居节点,交互行为等。

如何理解Jaccard

想象有两个 ○,每个圆代表一个集合, 两个圆的交集越大, 说明两个圆越相似,集合的组成也越相似。


集合A ,集合B

如何 根据Jaccard 排序。

首先将所有 样本的 a和b进行 分词 或 集合计算(预计算)
若特征为 文本 则分词
若特征为 id 则做 集合(交互数据) 的计算

取出 q 的 处理结果 , 和 query id 绑定
取出其他所有d的处理结果, 和 document id 绑定。
qd 计算Jaccard相似度, document id 按照Jaccard进行排序


document 和 query 的特征处理和 排序逻辑
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容