《机器学习实战》读书笔记11

Apriori算法概述

从大规模数据集中寻找数据之间的隐含关系被称作关联分析(association analysis)或者关联规则学习(association rule learning)。由于寻求解决的问题是“从数据x中能发现什么? 所以关联分析也是一种无监督学习算法。

关联分析中最有名的例子是“尿不湿与啤酒”。据报道,美国中西部的一家连锁店发现,男人们会在周四同时购买尿不湿和啤酒。这样商店实际上可以讲尿不湿与啤酒放在相邻的货架上,方便顾客购买。还可以在周四提高售价从而获利(当然,这家商店并没有这么做) 。

显而易见,在一个大数据集中越是频繁出现的数据组合,才越有可能发现潜在的关联规则。但发现数据间不同的组合、以及计算这些组合的频繁度是个十分耗时的任务,需要投入大量的计算资源才能满足时效要求。那有没有一种更智能的方法,在合理的时间范围内找到高频繁度的数据组合呢?答案是肯定的,这个方法就是Apriori算法。详细的解释请参考下文的工作原理。

优点:易编码实现。
缺点:在大数据集上可能较慢。
适用数据类型:数值型或者标称型数据。

入门案例

向“尿不湿&啤酒”案例致敬,我模拟了包含20笔记录的订单数据,每笔订单都有若干商品,如下图所示:

现在,你能从上面的订单数据中找到有价值的“关联规则”吗? 上面的订单数据中当然不会有“尿不湿”、“啤酒”,目的是为了避免“先入为主”的经验主义。

要让别人信服你的结论,你必须给出有说服力的量化指标。我们由浅入深的来学习如何得到量化的“关联分析”数据。

看上图中的“带鱼”,该商品在3个订单中出现了,我们还注意到买“带鱼”的人还买了“排骨”,所以可以说“置信度(带鱼-->排骨)=100%”。

这里,我们学习到了第一个量化指标:置信度,它表示事务A会导致事务B的可能性。但上面对买“带鱼”就一定会买“排骨”的结论正确吗?答案是否定的,因为:1.买“带鱼”的订单中,同时也出现了“毛巾”,你怎么能肯定不是因为“毛巾”才买了“排骨”呢?或者是因为“带鱼+毛巾”的组合,才买了“排骨”呢?2.在20个订单中,有“带鱼”的订单只有3个,用这种低概率的数据项做分析,会得到“以偏盖全”的错误结论。

所以,做关联分析的正确步骤是:首先统计数据项出现的频繁度,然后选取几率大的做置信度计算,这样的结论才有信服力。这就引出了第二个量化指标:支持度,指数据项出现的概率。例如,我们通过计算可以得到“支持度(带鱼)=3/20=15%”,还可以得到“支持度(带鱼+排骨)=3/20=15% ”、以及“支持度(带鱼+电池)=1/20=5% ”,可以说这些分值都较低,不适用于继续计算关联度。

如果你有耐心,可以一个个的计数、统计,最终能够得到类似于“支持度(毛巾)=15/20=75% ”、“支持度(排骨)=16/20=80% ”、“支持度(毛巾+排骨)=13/20=65% ”......等等这样有较高频繁度的数据集(频繁项集)。然后用这些频繁项集与订单中的其它商品进行关联度计算 。应用Apriori算法得到的结果如下:

上图的结果,在实际程序运算的时候指定了“过滤参数”,如:只选择“支持度>40%”的、以及只展示“置信度>60%”的分析结果。从这种量化的结果中,我们可以信服“86.7%的顾客在买了毛巾的同时,会购买排骨”。不要问我为什么,这只是从试验用的模拟数据计算得到的科学结果。


工作原理

关联分析是用于发现大数据集中元素间有趣关系的有力工具,可以采用两种方式来量化这些有趣的关系:1.频繁项集,它会给出经常在一起出现的元素组合项;2.关联规则,每条关联规则意味着频繁项集之间的“如果...那么...”关系。

发现元素间不同的组合是个十分耗时的任务,以上面的入门案例来说,共有14个商品,它们理论上的组合有“2的14次方减1”个,是一个相当大的数。而现实生活总,我们知道哪怕是红旗连锁的某个网点,也能够经营上百种商品、每天有几百笔订单。这就需要使用Apriori原理来减少计算量。

Apriori算法从单元素项开始,通过组合满足最小频繁度要求的项集来形成更大的集合。Apriori原理是说如果一个元素项是不频繁的,那么哪些包含该元素的超集也是不频繁的。例如:“支持度(带鱼)=3/20=15%”,小于40%的最小频度要求,那么就可以不计算“支持度(带鱼+排骨)”、以及“支持度(带鱼+电池)”了,因为它们都不会超过40%(其实它们甚至都不会大于15%)。

一般流程

收集数据:使用任意方法。
准备数据:任何数据类型都可以,因为我们只保存集合。
分析数据:使用任意方法。
训练算法:使用Apriori算法来找到频繁项集。
测试算法:不需要测试过程。
使用算法:用于发现频繁项集以及数据之间的关联规则。

可使用场景

1.对订单进行关联分析,用结果优化零售商场的货品摆放;
2.发现毒蘑菇的相似特征,避免食物中毒;
......

同类笔记可点击这里查阅

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 220,492评论 6 513
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 94,048评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 166,927评论 0 358
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,293评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,309评论 6 397
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 52,024评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,638评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,546评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 46,073评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,188评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,321评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,998评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,678评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,186评论 0 23
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,303评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,663评论 3 375
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,330评论 2 358

推荐阅读更多精彩内容