关联规则

关联规则挖掘可以让我们从数据集中发现项与项(item 与 item)之间的关系,它在我们的生活中有很多应用场景,“购物篮分析”就是一个常见的场景。

下面是几名客户购买的商品列表:

支持度(Support):

    支持度是个百分比,它指的是某个商品组合出现的次数与总次数之间的比例。支持度越高,代表这个组合出现的频率越大。

在这个例子中,我们能看到“牛奶”出现了 4 次,那么这 5笔订单中“牛奶”的支持度就是 4/5=0.8。

同样“牛奶 + 面包”出现了 3 次,那么这 5 笔订单中"牛奶 + 面包”的支持度就是 3/5=0.6。


Support(X,Y)=P(XY)=\frac{number(XY)}{num(AllSamples)}

以此类推,如果我们有三个想分析关联性的数据X,Y和Z,则对应的支持度为:

Support(X,Y,Z)=P(XYZ)=\frac{number(XYZ)}{num(AllSamples)}

置信度(Confidence):

    它指的就是当你购买了商品 X,会有多大的概率购买商品 Y,在上面这个例子中:

置信度(牛奶→啤酒)=2/4=0.5,代表如果你购买了牛奶,有多大的概率会购买啤酒?

置信度(啤酒→牛奶)=2/3=0.67,代表如果你购买了啤酒,有多大的概率会购买牛奶?

我们能看到,在 4 次购买了牛奶的情况下,有 2 次购买了啤酒,所以置信度 (牛奶→啤酒)=0.5,而在 3 次购买啤酒的情况下,有 2 次购买了牛奶,所以置信度(啤酒→牛奶)=0.67。

所以说置信度是个条件概念,就是说在 X 发生的情况下,Y 发生的概率是多少

Confidence(X⇐Y)=P(X|Y)=P(XY)/P(Y)

也可以以此类推到多个数据的关联置信度,比如对于三个数据X,Y,Z,则X对于Y和Z的置信度为:

Confidence(X⇐YZ)=P(X|YZ)=P(XYZ)/P(YZ)

提升度(Lift):

    我们在做商品推荐的时候,重点考虑的是提升度,因为提升度代表的是“商品 A 的出现,对商品 B 的出现概率提升的”程度

提升度表示含有Y的条件下,同时含有X的概率,与X总体发生的概率之比,即:

Lift(X⇐Y)=P(X|Y)/P(X)=Confidence(X⇐Y)/P(X)

提升度>1:强关联规则,代表有提升

提升度<=1:无效强关联规则,代表无提升

提升度=1:X和Y相互独立

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。