关联规则

                                      关联规则挖掘


关联规则概述

关联规则(association analysis),是一种基于规则的机器学习方法,用于发现隐藏在大型数据集中的有意义的联系。可用来寻找购物篮数据之间的联系,方便进行交叉销售;可以进行文本挖掘;也可使用在其他领域比如生物信息学、医疗诊断、地球科学等,发现一些有趣的联系。

图1

•项集:包含0个或多个项的集合,包含k个项的集合称为k-项集.例如 :{Milk,Bread,Diaper}

•关联规则:形如X->Y的蕴含表达式,其中X和Y是不相交的项集.例如:{Milk,Diaper}->{Beer}

•支持度(Support):表示项集{X,Y}在总项集里出现的概率,公式为:

Support(X->Y)= p(X ∪ Y)= (num(X∪Y))/(num(I))

•置信度(Confidence):表示X发生的情况下,由关联规则”X→Y“推出Y的概率。即在含X的项集中,含有Y的可能性,公式为:

Confidence(X->Y)=P(Y│X)= (P(𝑋∪𝑌))/(𝑃(X))

•提升度(Lift):表示含有X的条件下含有Y的概率与Y总体发生概率之比,公式为

Lift(X->Y)=(P(Y|X))/(P(Y))

•频繁项集:对项目集的支持度设定一个最小阈值(minsup),所有支持度大于这个阈值的项集就是频繁项集。

Example:

图二

对于关联规则{Milk,Diaper}->Beer:

Support({Milk,Diaper}->Beer)= (𝑛𝑢𝑚(Milk∪𝐷𝑖𝑎𝑝𝑒𝑟∪𝐵𝑒𝑒𝑟))/(𝑛𝑢𝑚(𝐼))=2/5

Confidence({Milk,Diaper}->Beer)= (𝑝(Milk∪𝐷𝑖𝑎𝑝𝑒𝑟∪𝐵𝑒𝑒𝑟))/(𝑝(𝑀𝑖𝑙𝑘∪𝐷𝑖𝑎𝑝𝑒𝑟))=2/3

Lift({Milk,Diaper}->Beer)= (𝐶𝑜𝑛𝑓𝑖𝑑𝑒𝑛𝑐𝑒("{Milk,Diaper}−>Beer" ))/(𝑝(𝐵𝑒𝑒𝑟))=10/9


最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容