关联规则算法及应用

算法介绍

一提到关联规则首先想到的就是“啤酒与尿布”的故事,关联规则最初的提出就是对购物车的分析,最为经典的就是Apriori算法。

给定一个购物交易数据库,记录每个交易涉及的商品,每一个交易都与一个唯一的标识id对应。关联规则在交易中的支持度是购物单中同时包含X、Y的百分比,即概率;置信度(confidence)是购物单中事务已经包含X的情况下,包含Y的百分比,即条件概率。如果满足最小支持度阈值和最小置信度阈值,则认为关联规则是有价值的。这些阈值是根据挖掘需要人为设定。

如果一个项集是频繁项集,则它的所有子集都是频繁项集。如果一个集合不是频繁项集,则它的所有父集(超集)都不是频繁项集。

关联分析的目标:

发现频繁项集:发现满足最小支持度的所有项集

发现关联规则:从频繁项集中提取所有高置信度的规则

输入:数据集合D,支持度阈值

输出:最大的频繁k项集

1)扫描整个数据集,得到所有出现过的数据,作为候选频繁1项集。k=1,频繁0项集为空集。

2)挖掘频繁k项集

a) 扫描数据计算候选频繁k项集的支持度

b) 去除候选频繁k项集中支持度低于阈值的数据集,得到频繁k项集。如果得到的频繁k项集为空,则直接返回频繁k-1项集的集合作为算法结果,算法结束。如果得到的频繁k项集只有一项,则直接返回频繁k项集的集合作为算法结果,算法结束。

c) 基于频繁k项集,连接生成候选频繁k+1项集。

3) 令k=k+1,转入步骤2。

参考:https://blog.csdn.net/weixin_40042143/article/details/82691106

相关指标

置信度:包含X的情况下,包含Y的百分比,即条件概率

支持度:支持度同时包含X、Y的百分比,即概率

应用场景

关联规则是最常见的数据挖掘任务,可以用来构建起推荐体系。通过收集到的用户使用、购买等数据,挖掘出相关性,形成知识,作为推荐的依据。在电商广告、新闻推送等相关推荐场景应用。还有就是对数据挖掘,如气象因素分析、事故因素分析等通过过往数据总结规则。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容