关联分析的目标包括两项:发现频繁项集和发现关联规则。首先需要找到频繁项集,然后才能获得关联规。
Apriori算法是发现频繁项集的一种方法。可以帮助我们减少找出频繁项集的计算量。Apriori原理是说如果某个项集是频繁的,那么它的所有子集也是频繁的。但更常用的是它的逆否命题,即如果一个项集是非频繁的,那么它的所有超集也是非频繁的。
Apriori算法的两个输入参数分别是最小支持度和数据集。该算法首先会生成所有单个元素的项集列表。接着扫描数据集来查看哪些项集满足最小支持度要求,那些不满足最小支持度的集合会被去掉。然后,对剩下来的集合进行组合以生成包含两个元素的项集。接下来,再重新扫描交易记录,去掉不满足最小支持度的项集。该过程重复进行直到所有项集都被 apriori函数介绍
apriori实现了Apriori算法,来自apyori包,实验环境已经安装此包。通过apriori函数能够找出频繁项集。使用方法如下:
results = list(apriori(transactions))
参数解释:
1. transactions:项集集合。