【机器学习与R语言】10- 关联规则

1.理解关联规则

1)基本认识

  • 购物篮分析:用来判别事务型数据中商品之间关联的机器学习方法,在零售店之间广泛使用。
  • 购物篮分析的结果是一组指定商品之间关系模式的关联规则
  • 表现形式:{花生酱,果冻}——>{面包},即如果购买了花生酱和果冻,就很有可能购买面包。商品的集合称为项集。
  • 特点:无监督学习,不能预测,智能发现知识;不能衡量算法性能,只能定性地评估。
  • 其他应用场景:癌症种寻找DNA和蛋白质频繁出现的模式;信用卡欺诈和保险或医疗津贴的模式等。

2)Apriori算法

  • Apriori:a priori,即事先
  • 事务型数据特点:一般很庞大,潜在的项集数量随着特征的数量呈指数增加。给定k个项,则有2^k个可能的项集必须用于规则的搜索。
  • 采用启发式算法来减少需要搜索的项集数,如广泛使用的Apriori算法,利用了一个简单的先验信念作为准则来减少关联规则的搜索空间(Apriori性质:一个频繁项集的所有子集必须也是频繁的)。
image.png

度量规则兴趣度:支持度和置信度

  • 支持度:一个项集或规则在数据中出现的频率。项集可以是多个项{A,B},也可是单个{A}。


    N是数据库中交易次数,count(X)是项集X的交易次数
  • 置信度:规则的预测能力或准确度度量,即表交易中项集X的出现导致项集Y出现的比例,和贝叶斯概率P(A|B)类似。


    同时包含项集X和Y的支持度与只包含项集X支持度之商

用Apriori性质建立规则

  • 如果{A,B}是频繁的,那么{A}和{B}必须是频繁的。通过Apriori算法可提前排除潜在的关联规则。
  • 过程:一是通过多次迭代-停止的过程来识别所有满足最小支持度阈值的项集;二是根据满足最小置信度阈值的这些项集来创建规则。

2.关联规则应用示例

用关联规则确定经常一起购买的食品杂货

1)收集数据

来自某超市经营一个月的购物数据,包含9835次交易,大约每天327次交易。不考虑品牌,将食品杂货数量归为169个类型,探究哪种类型的商品有可能一起购买。

数据下载:

链接: https://pan.baidu.com/s/11xTz8xkJxXTuj0hc5THTZA 提取码: s5pr

2)探索和准备数据

不同于矩阵,事务型数据形式更自由,每一行为案例(一次交易),每条记录包括用逗号隔开的任意数量的产品清单,一至多个。也就是说案例之间的特征可能是不同的。

①为交易数据创建一个稀疏矩阵
传统的数据框一旦增加额外的交易和商品,会变得过大而导致内存不足,因此用稀疏矩阵(购买了该单元格为1,否则为0,169列商品大部分单元为0)在内存中没有存储完整的矩阵,只是存储了由一个商品所占用的单元。

使用arules包中的read.transactions函数创建事务型数据的稀疏矩阵。

## Example: Identifying Frequently-Purchased Groceries ----
## Step 2: Exploring and preparing the data ----

# load the grocery data into a sparse matrix
library(arules)
groceries <- read.transactions("groceries.csv", sep = ",")
summary(groceries)

# look at the first five transactions
inspect(groceries[1:5])

# examine the frequency of items
itemFrequency(groceries[, 1:3])

②可视化商品的支持度(商品频率)

# plot the frequency of items
itemFrequencyPlot(groceries, support = 0.1) #支持度至少10%
itemFrequencyPlot(groceries, topN = 20) #支持度前20的商品
10%

top20

③可视化稀疏矩阵(商品交易)
矩阵中有黑色填充的,说明被购买了。大多数情况下,图形是比较随机的。
对于超大型交易数据集不适合全部展示,这时可以对交易进行随机抽样并可视化。

# a visualization of the sparse matrix for the first five transactions
image(groceries[1:5])

# visualization of a random sample of 100 transactions
image(sample(groceries, 100))
image.png

3)训练模型

apriori函数很简单,但要找到支持度和置信度参数来产生合理数量的关联规则,需要大量的试验和误差评估。参数阈值设置太高,可能没有规则或规则太普通,太低则可能导致规则数量庞大,耗时耗内存。

训练模型函数说明:

#找出关联规则
myrules=arules::apriori(data, 
        parameter = list(
                     support = 0.1,  #最低支持度
                     confidence = 0.8, #最低置信度
                     minlen = 1)) #最低项数

# 检验关联规则
inspect(myrules)
  • 支持度的阈值设置:考虑规则之前,事先想好需要最小的交易数量,如某商品一天购买2次(一月约60次)时可考虑建立规则,则支持度设为60/9835=0.006。
  • 置信度的阈值设置:涉及一个巧妙的平衡。绝大部分取决于分析目标,如从保守值开始,若无可行性规则,再降低要求拓宽范围。
  • minlen设定为2有助于消除包含少于两类商品的规则,防止仅仅是由于某商品被频繁购买而创建的无趣规则。
## Step 3: Training a model on the data ----
library(arules)

# default settings result in zero rules learned
apriori(groceries)

# set better support and confidence levels to learn more rules
groceryrules <- apriori(groceries, parameter = list(support =
                          0.006, confidence = 0.25, minlen = 2))
groceryrules
建立的关联规则数

4)评估性能

  • 规则的大小:前项(条件项/左项,lhs)和后项(结果项/右项,rhs)之和,如{peanut butter, jully}=>{bread}的大小为2+1=3.
  • 度量规则质量的统计量:支持度(support),置信度(confidence)和提升度(lift)。提升率是指一类商品相对于它的一般购买率,被购买的可能性有多大。若lift大于1,则说明商品关联一起比单类商品购买更常见。


    提升率与置信度不同,与商品购买顺序无关,lift(X—>Y)和lift(Y—>X)一样
  • 需要注意一些平凡的规则和令人费解的规则(可能只是随机模式)
## Step 4: Evaluating model performance ----
# summary of grocery association rules
summary(groceryrules)

# look at the first three rules
inspect(groceryrules[1:3])
规则结果

查看前三项规则

5)提高模型性能

①对关联规则集合排序
最有用的规则或许是那些具有最高支持度、置信度和提升度的规则,所以对其进行排序来寻找感兴趣的规则。

# sorting grocery rules by lift
inspect(sort(groceryrules, by = "lift")[1:5])
lift排序top5

②提取关联规则的子集
假如只对某种商品和其他商品关联感兴趣,,如浆果berries,则可以提取包含berries的所有规则。

# finding subsets of rules containing any berry items
berryrules <- subset(groceryrules, items %in% "berries")
inspect(berryrules)
image.png

③将关联规则保存到文件或数据框中
转化数据框使用as函数。

# writing the rules to a CSV file
write(groceryrules, file = "groceryrules.csv",
      sep = ",", quote = TRUE, row.names = FALSE)

# converting the rule set to a data frame
groceryrules_df <- as(groceryrules, "data.frame") 
str(groceryrules_df)
image.png
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,240评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,328评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,182评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,121评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,135评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,093评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,013评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,854评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,295评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,513评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,678评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,398评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,989评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,636评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,801评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,657评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,558评论 2 352