关联规则——Apriori算法与FP-Growth算法

                                        Apriori算法


•Apriori算法将发现关联规则的过程分为两个步骤:

      1、通过迭代,检索出事务数据库中的所有频繁项集,即支持度不低于用户设定的阈值的项集

      2、利用频繁项集构造出满足用户最小置信度的规则。

   其中,检索所有频繁项集是该算法的核心,占整个计算量的大部分

•Apriori算法的重要性质

性质1:频繁项集的子集必为频繁项集。如果{B,C}是频繁的,那么{B},{C}也一定是频繁的

性质2:非频繁项集的超集一定是非频繁的。例如{A,B}是非频繁的,那么{A,B, C},{A,B, C, D}也一定是频繁的

运用Apriori算法的性质,我们就能去掉很多非频繁的项集,大大简化计算量:


图一

我们发现{A,B}这个项集是非频繁的,那么{A,B}这个项集的超集{A,B,C},{A,B,D}等也都是非频繁的,这些就都可以忽略不去计算。

•使用Apriori算法构造出满足用户最小置信度的规则:

现有频繁项集l,生成每个非空子集S,若S满足最小置信度:

Confidence((l-s)→s)≥minconf

则输出关联规则(l-s)->s

Example:

最小支持度计数为2,minconf=80%

    Step1:生成频繁项集:


step1

    Step2:生成关联规则:

•对于step1得到的频繁集{B,C,E},有子集{B},{C},{E},{B,E},{B,C},{C,E},分别计算置信度:

confidence(BE->C)=2/3<80%

confidence(BC->E)=2/2>80%

confidence(CE->B)=2/2>80%

confidence(B->CE)=2/3<80%

confidence(C->BE)=2/3<80%

confidence(E->BC)=2/3<80%

则满足条件的为BC->E和CE->B两条规则

Apriori的优点:

•适合稀疏数据集。

•算法原理简单,易实现。

•适合事务数据库的关联规则挖掘。

•易编码实现

Apriori的缺点:

•可能产生庞大的候选集。

•算法需多次遍历数据集,算法效率低,耗时。

•在大数据集上可能较慢


                                  FP-Growth算法         

 •FpGrowth算法通过构造一个树结构来压缩数据记录,使得挖掘频繁项集只需要扫描两次数据记录,而且该算法不需要生成候选集合,效率高。 而Apriori算法对于每个潜在的频繁项集都会扫描数据集判定给定模式是否频繁。

•FpTree的数据结构:

FpTree是一种树结构,树结构定义如下:

FpTree树结构

Example:

假设最小支持度为3


数据集

Step 1:扫描数据记录,生成一级频繁项集,并按出现次数由多到少排序:

step1

Step 2:再次扫描数据记录,对每条记录中出现在Step1产生的表中的项,按表中的顺序排序。

step2

Step 3:遍历每一条记录,生成fpTree。初始时,新建一个根结点,标记为null:

step3

Step 4:根据step1得到的一级频繁项集建立项头表:

step4

Step5:利用FpTree挖掘频繁项集。从表头header的最后一个项开始挖掘,得到每一项的条件模式基。

此处即从{啤酒}开始,根据{啤酒}的线索链找到所有{啤酒}结点,然后找出每个{啤酒}结点的前缀路径{牛奶,面包,尿布:1},{牛奶,尿布:1},{面包,尿布:1}。其中的“1”表示出现频次,由后缀结点{啤酒}的次数决定。

根据前缀路径我们可以生成条件FpTree,构造方式跟之前一样,此处的数据记录变为:


step5

Step6:使用条件模式基构造条件fpTree:

step6

构造好条件树后,对条件树进行递归挖掘,当条件树只有一条路径时,路径的所有组合即为条件频繁集。此处的条件频繁集为:{{},{尿布}},于是得到以{啤酒}为后缀的频繁集为{啤酒}、{尿布,啤酒}。

接下来重复step5,step6找header表头的倒数第二个项{尿布}的频繁集,直到header表头每个项挖掘完成。

 {尿布}的前缀路径为:{面包:1},{牛奶:1},{牛奶,面包:2}


得到一组频繁项集{尿布},{牛奶,尿布},{面包,尿布},{牛奶,面包,尿布}

重复以上步骤,对header表头的每个项进行挖掘,即可得到整个频繁项集

FP-Growth算法总结:

•两次扫描数据库:

  第一次扫描得出单个频率

  第二次扫描构建FP-Tree树

•步骤:

  扫描(计数、去除不满足最小支持度的项集)

  重排

  构建FPTree

  从下往上扫描项头表,构建每一项的条件模式基并构造条件FPTree

  递归条件FPTree得到频繁项

•优点:

  只需两次扫描数据库

•缺点:

  内存开销大

  单维布尔关联规则


©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,186评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,858评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,620评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,888评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,009评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,149评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,204评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,956评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,385评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,698评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,863评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,544评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,185评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,899评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,141评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,684评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,750评论 2 351

推荐阅读更多精彩内容