首先通过一个实际场景来给大家简单介绍一下关联规则算法:
客户在餐厅点菜时,面对菜单中大量的菜品信息,往往无法迅速找到满意的菜品,既增加了点菜的时间,也降低了客户的就餐体验。实际上,菜品的合理搭配是有规律可循的:顾客的饮食习惯、菜品的荤素和口味,有些菜品之间是相互关联的,而有些菜品之间是对立或竞争关系(负关联),而这些规律都隐藏在大量的历史菜单数据中,如果能够通过数据挖掘发现客户点餐的规则,就可以快速识别客户的口味,当用户下了某个菜品中的订单时推荐相关联的菜品,引导客户消费,提高顾客的就餐体验和餐饮企业的业绩水平。
关联规则分析也称为购物篮分析,最早是为了发现超市销售数据库中不同的商品之间的关联关系。例如,一个超市的经理想要更多地了解顾客的购物习惯,比如哪组商品可能会在一次购物中同时购买?或者某顾客购买了个人电脑,那该顾客三个月后购买数码相机的概率又多大?他可能会发现如果购买了面包的顾客同时非常有可能购买牛奶,这就导出了一条关联规则“面包》牛奶”,其中面包成为规则的前项,而牛奶称为后项。通过对面包降低售价进行促销,而适当提高牛奶的售价,关联销售出的牛奶就有可能增加超市整体的利润。
关联规则分析是数据挖掘中最活跃的研究方法之一,目的是在一个数据集中找出各项之间的关联关系,而这种关系并没有在数据中直接表现出来。常用的关联规则算法如下:
1,Apriori
关联规则最常用也是最经典的挖掘频繁项集的算法,其核心思想是通过连接产生候选项及其支持度然后通过剪枝生成频繁项集
2,FP-Tree
针对Apriori算法的固有的多次扫描事务数据集的缺陷,提出的不产生候选项频繁项集的方法。Apriori和FP_-Tree都是寻找频繁项集的算法
3,Eclat算法
Eclat算法是一种深度优先算法,采用垂直数据表示形式,在概念格理论的基础上利用基于前缀的等价关系将搜索空间划分为较小的空间
4,灰色关联法
分析和确定各因素之间的影响程度或是若干个因素(子序列)对主因素(母序列)的贡献度而进行的一种分析方法。