关联规则挖掘
关联规则概述
关联规则(association analysis),是一种基于规则的机器学习方法,用于发现隐藏在大型数据集中的有意义的联系。可用来寻找购物篮数据之间的联系,方便进行交叉销售;可以进行文本挖掘;也可使用在其他领域比如生物信息学、医疗诊断、地球科学等,发现一些有趣的联系。
图1
•项集:包含0个或多个项的集合,包含k个项的集合称为k-项集.例如 :{Milk,Bread,Diaper}
•关联规则:形如X->Y的蕴含表达式,其中X和Y是不相交的项集.例如:{Milk,Diaper}->{Beer}
•支持度(Support):表示项集{X,Y}在总项集里出现的概率,公式为:
•置信度(Confidence):表示X发生的情况下,由关联规则”X→Y“推出Y的概率。即在含X的项集中,含有Y的可能性,公式为:
•提升度(Lift):表示含有X的条件下含有Y的概率与Y总体发生概率之比,公式为
•频繁项集:对项目集的支持度设定一个最小阈值(minsup),所有支持度大于这个阈值的项集就是频繁项集。
Example:
图二
对于关联规则{Milk,Diaper}->Beer: