数据挖掘——关联分析

前言

关联规则是人类认知客观事物形成的一种认知模式。人们可以从庞大的事物个体中发现一个或者多个的关联。从而建立出关联规则。就像一个因果关系一样,就像我们看到恶狗就想到 可能会咬人(本人对狗无恶意),按下开关的按钮灯就会开。这些事物本身是没有联系的。但是人们可以从中学到一个关联规则。那么机器如何学的到呢?就像每本BI(商业职能)教材或者数据挖掘教材都会讲到的“啤酒和尿布”的案例,这两个本身毫无联系的东西怎么会关联到一起呢?

频繁模式

模式

关联关联,不能说自己与自己关联吧。总得有两个以上得个体,但是个体与个体之间即使有关联 也应该是一个无序得组合。这个组合就叫模式。

支持度和置信度

频繁模式就是频率很高的模式。
怎么判断这个频率呢?
那就是支持度和置信度

支持度:就是这个组合出现在总样本中的百分比。比如总样本中这个组合出现所占百分比是50%。那么支持度就是50%。
置信度::就是一个顺序性,不如模式是(A、B)那么拥有A的一定拥有B。那么就说拥有A后拥有B的置信度为100%。反过来,拥有B后拥有A的概率是40% 那就说。拥有B后拥有A的置信度是40%。

表达的高大上一点就是:
A=>B [support=50%, confidence=100%]
B=>A [support=50% ,confidence=40%]

结论:支持度和置信度都高于阈值的模式称为频繁模式。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 作者:hooly微信公众号:一口袋星光 购物篮分析 利用关联分析的方法可以发现联系如关联规则或频繁项集。 二元表示...
    hooly阅读 59,644评论 7 37
  • 第一章 『逃......』 「快走……」 女人模糊不清的面孔,手向她的方向张开,冲她...
    魅九阅读 3,034评论 0 0
  • 清澄如水 点一炉檀香,借它的香氛烟雾,幻化出那些也笑也哭的镜头。 斟一杯浊酒,高举仰头饮下,感念曾无限风光的灵魂。...
    清澄如水阅读 2,271评论 0 8
  • 同一天,我和两个人说了好想谈恋爱。 22岁的表妹附和:你美你可以,去吧! 46岁的姨妈急了:你都这年纪了,还只想谈...
    索拉说阅读 3,762评论 2 1
  • 听说,初恋这件小事,要翻拍。 想起小水对阿亮的告白:我所做的一切,我努力改变自己,都是为了你。 对我来说,我想变得...
    大爱赫敏阅读 1,898评论 1 0