说明:本系列是阅读项亮老师的《推荐系统实战》的一些即使笔记。自己记性不好,俗话说好记性都不如烂笔头,于是叮嘱自己作文记之。
上回书我们讲到推荐系统的基本介绍,算是用脚指头碰了碰推荐系统的门槛,希望我不要继续缩回去,继续碰它!
与人斗,其乐无穷。
第二章 利用用户行为数据
- 想要给别人推荐东西,首先得研究别人。----鲁迅(雾)
- 如何研究目标用户呢?孔子曰:听其言,观其行。这算是中国最早研究推荐系统的人, 比西方早了...呸。思想有了,但是做起来难。难点有三:
- 自然语言理解技术很难理解用户用来描述兴趣的自然语言。(大家快去学NLP)
- 用户的兴趣偏好是动态变化的;
- 很多用户根本不知道自己喜欢什么。
- 研究用户一般是基于用户行为数据,挖掘潜在的行为模式,为推荐系统助力。啤酒尿布的例子懂吧?
- 用户行为数据分为两种,①显式反馈行为;②隐式反馈行为。
- 显式反馈行为是指那些能直接表达用户喜好的行为。喜欢/不喜欢,没有模棱两可。比如评分数据,很明显几分就是几分。
- 隐式反馈行为是指那些不能明确反映用户喜好的行为。比如购买、点击、浏览等,这些行为并不能说明用户就是喜欢或者不喜欢。
- 显式反馈和隐式反馈的区别:显式反馈中用户兴趣明确,数据中明显包含正负例样本,但是数量一般较少,难以获得。隐式反馈中用户兴趣不明确,而且一般只有正反馈,但是数据量大,容易获得。
- 用户行为分析中,有一个很重要的规律----幂律分布。这个分布也有其它的名字,例如,长尾分布、Zipf定律。个人感觉二八定律也算吧。举个例子,在社交网络中大多数用户只有很少的行为,只有少数用户拥有很多行为。大多数用户只有很少的粉丝,只有少数用户拥有大量粉丝。这个定律对转发量、物品流行度、社区大小、用户活跃度等很多人类规律都适合。你说神奇不神奇。
- 针对基于用户行为的推荐,评价指标在第一章已经讲过。这里着重关注Recall、Precision、Coverage,其公式如下,原文中有代码,有兴趣可以去康康。
- 上述公式具体含义第一章里面有介绍,我们可以掉个头看一看。
先到这,我们下次介绍基于邻域的算法。