Apriori--Fast Algorithms for Mining Association Rules 关联规则挖掘

一、基本概念

1.项:数据库中不可分割的最小信息单位,用符号i表示,具有原子性。如{啤酒,尿布}。

2.项集:项的集合,含k个项的集合称为k-项集。

3.事务:由数据库中多个项构成的集合。如顾客在商场里同一次购买多种商品,这些购物信息在数据库中有一个唯一的标识,用以表示这是同一个顾客购买的,称该用户的本次购物活动对应一个数据库事务。

4.关联规则【association rule】:


关联规则是形如X=>Y的的蕴涵式,反映X中的项出现时,Y中的项跟着出现的概率。

5.支持度:反映X和Y中所含的项同时在一个事务中出现的概率

6.置信度:反映包含X的事务中出现Y的条件概率

7.最小支持度【minimum support】与最小置信度【minimum confidence】:前者反映关联规则的最低重要程度,后者规定关联规则必须满足的最低可靠性。

8.频繁项集:支持度计数大于等于最小支持度的I的非空子集

二、算法描述


算法描述

a.连接操作


连接


b.剪枝操作


剪枝


举个例子
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容