关联规则--Apriori算法

~~~相关案例阅读书籍《啤酒和尿布--神奇的购物篮分析》~~~


链接:https://pan.baidu.com/s/1mi02ALy 密码:m8ab


以下笔记来源于《数据挖掘--方法与应用》 清华出版社   第四章相关性与关联规则

相关概念:

1、一般人们会对支持度较高的商品感兴趣,即当支持度达到一定阈值时,才有被挖掘的意义。


(这个是我随便敲的:(

2、相关性是什么?

3、关联规则是什么?

从图中可以看到,我们买了牛奶,很有可能会去买可乐,暗示这两样物品之间可能存在的关系称为关联规则。

4、支持度是什么?(support)

在学概率论与数理统计时,我们曾了解过古典概率,从图中可以看到一共有7个人,同时选了牛奶和可乐的占了3个,所以它的概率为3/7,在关联规则中它叫支持度。

5、阈值是什么?

也就是最小支持度计数,某一条件出现的最少次数。

6、频繁项集是什么?

当某种商品的支持度超过最小支持计数时,这个商品就叫做频繁项集。

7、置信度是什么?(confidence)

要理解置信度我们先要理解什么是置信区间,要理解置信区间我们要着重掌握用样本估计总体这一核心思想。

首先真值只能是总体参数,而我们选取的数据是样本数据,点估计是样本参数的真实值,而我们需要估计的是总体参数。

90%的置信度的意思不是这个区间有90%的概率包含真值。

真值并不会发生变化,置信区间会发生变化。

比如说一个人20岁,20岁这个现状是不会发生变化的,我们可能猜他18~22岁,也可能是觉得他25左右....

所以置信度的意思是,在100个置信区间中,有90个区间cover 了这个真值。

故而我们拿出一个置信区间的时候,就觉得它有90%的概率会包含真值。

8、如何计算置信度?

confidence(A→B)=P(B|A)=support(A ∪B)/support(A)=P(A∪B)/P(A)

可以看出在关联规则中的置信度类同于概率论与数理统计中的条件概率。

基底是A还是B呢?若是A到B,就是在A的条件下成为B的概率,那么基底就是A。

9、提升度是什么?(left)

for example:(例子来源于百度知道)贷款客户的违约率为2%,你用数据挖掘方法建立了一个预测贷款客户将来违约可能性的模型,用这个模型将客户进行评分后,违约可能性最高的10%的客户中,实际违约客户占了50%,说明你所建立的模型对于这一部分客户识别的提升率是25(50%是2%的25倍),你只要做好这10%的客户的贷后管理,就能够避免50%违约客户的损失,比起你毫无目的地对所有贷款客户进行贷后管理效率要高得多。

9、如何计算提升度?并且进行判断。

在图中我们可以看出有ABCDF五个人买了牛奶,并在该条件下有ACF三个人买了可乐,说明P(可乐|牛奶)=3/5,七个人中有五个人买了可乐,说明大家会去买可乐的概率为5/7,将3/5除以5/7得到3/7,这个值就是提升度(left)。

当left >1时,说明这个关联规则是可行的。 

          = 1,说明实行不实行都没有差别。

         < 1,哎算了算了还是原来的样子吧,可能买牛奶的都是健康人士都懒得看可乐一眼。

10、什么是强关联规则?

满足最小支持度和最小置信度的关联规则叫做强关联规则。

(题外话,最小支持度和最小置信度都是大家自己设的,但是怎么设,就是经验之谈了)

10、强关联规则一定是有意义的吗?

这里就又要把我们的left拿出来溜溜啦~~

只有left>1,(当然有时候=1也是ok的) 强关联规则才有意义。

11、性质?

如果一个项集是频繁的,那么它的子项集也是频繁的,强调了反单调性。

12、采用什么方式?

逐层搜索。(爬楼梯回答问题,挨个回答问题,回答上了就上一层楼,这时将其中两人捆绑成一组,按组回答问题,回答上楼,再讲其中三人捆绑成一组,按组回答问题,直到将n个人都变成一队并回答成功问题为止)

13、举例计算。




14、瓶颈

1)多次扫描事务数据库,需要很大的I/O负载。

     因为我们要对产生的候选集进行扫描,确定每一个元素都已通过验证。如果一个频繁大项集包含10项,那么至少要扫描10次。

2)可能产生庞大的候选集。

15、优化

1)基于散列的方法。


2)事务压缩

3)基于数据划分的方法

4)基于采样的方法 

16、用R进行apriori算法(希望我赶紧弄完github然后把案例放上面去嘤嘤嘤)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,869评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,716评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 166,223评论 0 357
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,047评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,089评论 6 395
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,839评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,516评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,410评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,920评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,052评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,179评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,868评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,522评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,070评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,186评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,487评论 3 375
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,162评论 2 356

推荐阅读更多精彩内容