用以前爬的知乎用户行为数据,跑了一下Apriori算法,发现了一些有意思的关联规则。以下是简略的分析过程。
数据采集
数据怎么来的?当然不是知乎给的,是爬虫来的。怎么爬的?这篇文章就不说了。
数据处理
之前爬虫的时候为了存储方便,把一个用户关联的话题以及每个话题下的回答情况存放一个长的字符串,这是一个坑。现在为了建模,得先把数据处理一下,用Python正则表达式从长字符串中把话题id抽取出来,然后使之变成一对多的规整的结构化数据框。这个过程使3220712行数据变成了36856177行。
关联分析
当然这里依然用R调包的方法来做关联分析。不过这个数据体量太大了,全量读的话单机内存会爆,更别说Apriori进行全表扫描、逐步迭代计算……所以选择一部分样本即可,这里取100w条数据作为样本来跑模型。
library(readr)
library(arules)
library(arulesViz)
library(dplyr)
topic_info <- read_csv("E:/data/data/zhihu_topics.csv")
Encoding(topic_info$topic) <- "gbk"
user_topic_sample <- read_csv("E:/data/data/zhihu_user_topic_sample.csv")
user_topic_sample <- user_topic_sample %>% left_join(topic_info[,1:2])
trans <- as(split(user_topic_sample$topic,user_topic_sample$user_token),"transactions")
rules <- apriori(trans,parameter = list(supp=0.1,conf=0.5,minlen=2))
summary(rules)
rules.sorted <- sort(rules, by="lift")
inspect(rules.sorted) %>% head(50)
lhs rhs support confidence lift count
[1] {旅行,美食,心理学} => {时尚} 0.1015915 0.7318048 3.065149 3479
[2] {健身,美食} => {时尚} 0.1031099 0.6927604 2.901612 3531
[3] {电影,旅行,心理学} => {时尚} 0.1069937 0.6879459 2.881447 3664
[4] {美食,心理学} => {家居} 0.1003066 0.5069362 2.868005 3435
[5] {电影,旅行,美食} => {时尚} 0.1104687 0.6830986 2.861144 3783
[6] {电影,美食,心理学} => {时尚} 0.1116659 0.6745458 2.825320 3824
[7] {健身,心理学} => {时尚} 0.1055921 0.6569767 2.751733 3616
[8] {家居} => {时尚} 0.1146153 0.6484388 2.715972 3925
[9] {旅行,心理学} => {时尚} 0.1209228 0.6474359 2.711771 4141
[10] {健身,旅行} => {时尚} 0.1037232 0.6473483 2.711404 3552
[11] {旅行,美食} => {时尚} 0.1232005 0.6455018 2.703671 4219
[12] {电影,旅行,时尚} => {美食} 0.1104687 0.8419764 2.689440 3783
[13] {旅行,时尚,心理学} => {美食} 0.1015915 0.8401352 2.683559 3479
[14] {商业} => {创业} 0.1386772 0.6043523 2.653679 4749
[15] {创业} => {商业} 0.1386772 0.6089242 2.653679 4749
[16] {美食,心理学} => {时尚} 0.1250986 0.6322314 2.648088 4284
[17] {美食,设计} => {时尚} 0.1017667 0.6320276 2.647234 3485
[18] {电影,健身,美食} => {旅行} 0.1030223 0.8275862 2.635608 3528
[19] {电影,家居} => {美食} 0.1067601 0.8175313 2.611357 3656
[20] {电影,生活} => {音乐} 0.1106731 0.6273796 2.605143 3790
[21] {设计,心理学} => {时尚} 0.1066433 0.6206662 2.599647 3652
[22] {旅行,心理学} => {教育} 0.1022631 0.5475297 2.595536 3502
[23] {电影,时尚,心理学} => {美食} 0.1116659 0.8118896 2.593336 3824
[24] {美食,时尚,心理学} => {旅行} 0.1015915 0.8120915 2.586262 3479
[25] {电影,美食,时尚} => {旅行} 0.1104687 0.8102377 2.580358 3783
[26] {电影,旅行,心理学} => {美食} 0.1241349 0.7981600 2.549481 4251
[27] {家居,心理学} => {美食} 0.1003066 0.7958758 2.542185 3435
[28] {经济学} => {商业} 0.1366915 0.5831568 2.541385 4681
[29] {商业} => {经济学} 0.1366915 0.5956987 2.541385 4681
[30] {旅行,心理学} => {职业发展} 0.1016791 0.5444028 2.538890 3482
[31] {旅行,时尚} => {美食} 0.1232005 0.7948380 2.538870 4219
[32] {电影,健身,心理学} => {美食} 0.1009490 0.7898104 2.522811 3457
[33] {美食,心理学} => {教育} 0.1051248 0.5312869 2.518538 3600
[34] {电影,商业} => {互联网} 0.1016207 0.6815511 2.518041 3480
[35] {创业,电影} => {互联网} 0.1006862 0.6791412 2.509137 3448
[36] {电影,健身,心理学} => {旅行} 0.1004818 0.7861549 2.503662 3441
[37] {电影,健身,旅行} => {美食} 0.1030223 0.7826087 2.499807 3528
[38] {健康} => {生活} 0.1190539 0.6937213 2.498579 4077
[39] {电影,设计,心理学} => {美食} 0.1091254 0.7806559 2.493570 3737
[40] {教育} => {职业发展} 0.1122500 0.5321152 2.481586 3844
[41] {职业发展} => {教育} 0.1122500 0.5234918 2.481586 3844
[42] {电影,时尚,心理学} => {旅行} 0.1069937 0.7779193 2.477434 3664
[43] {健身,美食} => {旅行} 0.1156373 0.7769276 2.474276 3960
[44] {美食,心理学} => {职业发展} 0.1046576 0.5289256 2.466711 3584
[45] {电影,健身} => {时尚} 0.1102351 0.5883728 2.464387 3775
[46] {电影,互联网} => {商业} 0.1016207 0.5648434 2.461576 3480
[47] {设计,时尚} => {美食} 0.1017667 0.7699956 2.459519 3485
[48] {健身,时尚} => {旅行} 0.1037232 0.7721739 2.459137 3552
[49] {电影,互联网} => {创业} 0.1006862 0.5596494 2.457391 3448
[50] {美食,时尚} => {旅行} 0.1232005 0.7705936 2.454104 4219
提升度最高的关联规则是{旅行,美食,心理学} => {时尚} ,达到了3倍多!事实上这些top50的关联规则很多都是导向“时尚”这个话题,果然不愧为逼乎。
plot(rules, method="graph", control=list(type="items"))
图就不解释了,一直都不是很懂关联规则可视化图怎么解读……
附加一下各话题关注人数top100:
关联分析的结果可用作推荐系统。与协同过滤算法相比,它不必计算两两相似度的邻接矩阵,计算量相对小一点;而且协同过滤算法只能计算相似度,关联规则有支持度、置信度、提升度等指标,解释性较强一点。不过在协同过滤算法中,因为有两两的相似度,因为只要有一个新的input,总能根据最高的相似度进行推荐;而在关联规则中,只有触发了对应的关联规则才能推荐,因此它的覆盖面不如协同过滤广。
步骤总结
- 首先把数据整理成id-item式的规整dataframe
- 然后把dataframe转换成transaction
- 设定关联规则参数(support、confident等)建立关联规则
- 以关联规则按某个指标(lift、support等)排序、解析
- 可视化关联规则
问题延伸
- 还好刚换了一个游戏本,不然无论Python处理数据,还是跑Apriori模型,估计都会卡成狗
- 这只是一个case study
- Apriori算法在数据量大的时候计算量也大得可怕,可以考虑FP-growth
- 用R在单机上调包建模的方法可以在学习时体会一下,但离工业级的建模仍有差距。这个case体量的数据建模的话,在Spark等分布式并行计算平台上跑算法才是正道