R语言与关联规则挖掘—购物篮分析

名词:

挖掘数据集:购物篮数据

挖掘目标:关联规则

关联规则:啤酒=>尿布(支持度0.02,置信度0.6)

支持度:所有数据中有2%的购物记录包含了啤酒和尿布

置信度:所有包含啤酒的购物记录里有60%包含尿布

最小支持度阈值和最小置信度阈值。

项集:项(商品)组成的集合

K-项集:k个项组成的集合

频繁项集:满足最小支持度的项集

强关联规则:满足最小支持阈值和最小置信度阈值的规则

步骤:

找出所有频繁项集;由频繁项集产生强关联规则。

案例:

TID为购物记录,List of item_ID为商品ID,如第T100条购物记录中,包含商品I1,I2,I5。

最后推出的关联规则有:

(以上图片来源薛毅老师的《r modeling》)

R语言操作:

包:arules

数据集:Groceries(内置数据集)

函数:inspect:显检查,示一个的文集或一个术语文档矩阵的详细信息。查看数据。

         apriori:提取关联规则

代码:

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 定义   关联分析是一种简单、实用的分析技术,就是发现存在于大量数据集中的关联性或相关性,从而描述了一个事物中某些...
    老羊_肖恩阅读 3,371评论 0 1
  • 一、关联分析介绍 商场的销售过程,涉及很多机器学习的应用,商品的陈列,购物卷的提供,用户忠诚度等等,通过对这些大量...
    nobodyyang阅读 1,375评论 0 0
  • 所有人都在追求财富自由,可是真正的财富自由是什么样子的呢,笑来老师说,我们要的自由,其本质不是财富,财富只是工具;...
    小二徐阅读 535评论 4 2
  • 重新整理了一下全书的结构,对阅读和理解有个相对清晰的认识! 《定位》这本书共22章,我将其暂分成五部分; 第一部分...
    Summer的薄荷阅读 421评论 0 1
  • 相由心生,境由心造。在岁月中跋涉,每个人都有自己的故事,看淡心境才会秀丽,看开心情才会明媚。累时歇一歇,随清风漫舞...
    果味儿99阅读 276评论 1 3