关联规则挖掘的概念
在事务,关系数据库中的项集和对象中发现频繁模式,关联规则,相关性或者因果结构。
频繁模式:频繁出现的项集
通俗一点讲就是从一堆经常发生在一起的事情中,找出他们之间的关联性。
举个啤酒和尿布的例子,商场统计发现啤酒和尿布频繁出现在同一张订单中,我们就可以挖掘出啤酒和尿布之间的关联关系。比如买啤酒的人很大概率会买尿布,或者买尿布的人很大的概率会买啤酒。
频繁项集的相关概念
项集
包含0个或多个项的集合,比如{牛奶,面包,尿布}
k-项集:集合中项数目为k的项集,{牛奶,面包,尿布}这就是一个三项集
支持度计数
比如现在有一些事务集合
编号 事务
1 面包,牛奶
2 面包,尿布,黄油,鸡蛋
3 牛奶,尿布,黄油,可乐
4 面包,牛奶,尿布,黄油
5 面包,牛奶,尿布,可乐
{牛奶,黄油}的支持度计数就是2,因为{牛奶,黄油}在编号3,4的事务中出现,计数次数就是2
所以支持度计数就是包含特定项集({牛奶,黄油})的事务个数
支持度
支持度与总事务数的比值,比如{牛奶,黄油}的支持度就是2/5
频繁项集
也就是要判断某个项集是否频繁,这里引出了最小支持度阈值的概念,就是设定一个支持度的值,大于这个值的项集就是频繁项集
关联规则的相关概念
关联规则
关联规则是形如 X->Y的表达式, 其中 X 和 Y 是不相交的项集
比如{牛奶,尿布}-> {黄油}
关联规则的强度
X->Y的支持度:确定项集的频繁程度,也就是{X,Y}的支持度,即X,Y一起出现的概率P(XY),这里使用频率代替概率
X->Y的置信度:确定在X发生的条件下Y一定会发生的概率,举个栗子:牛奶->黄油,就是买了牛奶还会买黄油的概率P(Y|X)=P(XY)/P(X)=2/4=50%,这个概率和 黄油->牛奶的概率是不同的,也就是 X->Y不满足交换律
关联挖掘规则的一般步骤
1.先从给出的事务集合中找出频繁项集
只有频繁的项集才能产生强的关联规则
2.从频繁项集中挖掘出项与项之间的规则
只有从频繁项集中挖出来的规则才是强规则,因为频繁项集中的项集出现的频率高,挖掘出规则的置信度就会高。