从大规模数据集中寻找物品间的隐含关系被称作关联分析(association analysis)或者关联规则学习(association rule learning)。
那么什么是关联分析呢?关联分析是一种在大规模数据集中寻找有趣关系的任务。这些任务包括两项:发现频繁项集和从频繁项集中发现关联规则。
频繁项集(frequent item sets):是经常出现在一块的物品的集合,例如香烟和打火机。
关联规则(association rules):暗示两种物品之间可能存在很强的关系,通常表示物品之间的“如果…那么”关系,例如“如果购买香烟,那么有很大概率会购买打火机”。
那么如何定量地衡量一物品集合是否频繁的呢?以及如何定量地衡量两种物品之间的关系?在这里就需要引入一些新的概念:
项集:项的集合,项可以是商品,那么项集就是商品的集合。
支持度:数据集中包含该项集的记录所占的比例,也就是该项集在数据集中的出现频率,用以衡量项集的频繁程度。(例如:A商品在4次交易中出现3次,则支持度为3/4)
可信度:又称置信度,是针对关联规则来定义的,表示某项集在指定条件下的出现概率,用以衡量物品之间的关系。
可信度计算
根据计算出的频繁项集,计算出关联规则:
因为012->3 的置信度计算为sup(0123)/sup(012),其中sup(012)已经为最小值,但是其置信度还是没有达标,所以其sup(012)子集都不能满足要求,所以舍去。