定义
Jaccard 相似度 是指 两个 属性或特征 的交集属性于 并集属性的商 , 可以写作

image.png
其中F 为 属性a和 b的集合 如 分词结果, 邻居节点,交互行为等。
如何理解Jaccard
想象有两个 ○,每个圆代表一个集合, 两个圆的交集越大, 说明两个圆越相似,集合的组成也越相似。

集合A ,集合B
如何 根据Jaccard 排序。
首先将所有 样本的 a和b进行 分词 或 集合计算(预计算)
若特征为 文本 则分词
若特征为 id 则做 集合(交互数据) 的计算
取出 q 的 处理结果 , 和 query id 绑定
取出其他所有d的处理结果, 和 document id 绑定。
qd 计算Jaccard相似度, document id 按照Jaccard进行排序

document 和 query 的特征处理和 排序逻辑