问题1: 支持度与置信度阀值(取前50%)定得太低, 导致规则不是很相关(连衣裙->阿拉伯服饰 lift最高), 会出现在美国站下首推阿拉伯服饰.
解决方法: 将支持度与置信度阀值调高到取每个类目的前5%数据
结论: 提升度在支持度, 置信度在一定阀值上才更有意义. 不然会出现提升度很高, 但相关性不明显的结果.
问题2: 若只不限定AB类目的支持度, 会出现相似类目为极小众, 导致相关性不高
Lift(A, B) = p(AB) / p(A)*p(B), 若B类目只出现了一单, 那Lift(A, B) 会很高, B会出现在A相似类目很靠前的位置.
问题3: 若用置信度作为衡量相关性, 会出现所有类目的相似类目都为热门类目.
Conf(A->B) = P(B|A) = P(AB)/P(A), B越热门, Conf(A->B) 越高.
问题4: 若不限定A->B的置信度, 会出现这个规则效果提升很好, 但这个规则出现概率并不高.
比如 Lift(A, B) = P(B|A) / P(B) 若P(B|A)=0.00001, P(B)=0.000001, 则Lift(A, B)=10, 但P(B|A)太低显的没意义, 宁愿选择P(B|A)高点, 但提升相对低点的模式