姓名:梁祥 学号:17021210935
【嵌牛导读】:其实我们已经被各种推荐系统包围而不所知,每天都被各种推送消息狂轰滥炸。但是,商家为什么会这么执着于给我们推送,他们有什么勇气觉得推送的这些消息会对我们或者他们有价值,其实这都是由科学依据哒(此处卖萌求不杀),且看我慢慢道来。
【嵌牛鼻子】:推荐系统,协同过滤算法
【嵌牛提问】:常用的推荐系统算法是什么?其理论依据与具体操作流程又是什么?
【嵌牛正文】:
首先我们先来看一个虽然悲伤,但也能笑出杠铃声的故事:
一个漂亮的小姐姐因为无聊打开了某某云音乐的私人FM,无意中发现了一首虽然只有几个人的评论,但是很喜欢很好听的歌。而在那几条评论里刚好就有前男友的一条,点开之后就是这个画风:
而且,经过私信发现居然真的是同名同姓的前男友!果然是相似的人会喜欢相似的歌呢。最后还有一个不失尴尬的小结尾-----图中的Pippa是一个98年的漂亮小妹妹,而图中的主人公则是90年出生的27岁“阿姨”。
好的,故事环节到此结束。对于为何会这么巧遇见同一个前男友的问题,其实是有迹可循的。对于大多数的推荐系统来说,单纯利用推荐物品(价格、热度、外观等)和推荐用户(年龄、性别、职业)的属性信息进行聚类,不仅在物品和用户属性上存在着维度高、数量大、属性之间难以取舍等问题,而且在实际的单一推荐结果也有很大误差。
因此,大幅度摆脱用户和物品属性限制的协同过滤算法应运而生了。
关于协同过滤的一个最经典的例子就是看电影,有时候不知道哪一部电影是我们喜欢的或者评分比较高的,那么通常的做法就是问问周围的朋友,看看最近有什么好的电影推荐。在问的时候,都习惯于问跟自己口味差不多的朋友,这就是协同过滤的核心思想。协同过滤算法包括了基于用户和基于物品的协同过滤算法。其中,一类表示的是喜欢同一类型商品的用户为相似用户,另一类表示被同一类型用户喜欢的商品为相似商品。
协同过滤是在海量数据中挖掘出小部分与你品味类似的用户,在协同过滤中,这些用户成为邻居,然后根据他们喜欢的东西组织成一个排序的目录推荐给你。所以就有如下两个核心问题:
(1)如何确定一个用户是否与你有相似的品味?
(2)如何将邻居们的喜好组织成一个排序目录?
要解决这两个问题,一般需要进行以下三个步骤:
a. 收集用户偏好
b. 找到相似的用户或者物品
c. 计算并推荐
(1) 收集用户偏好
从用户的行为和偏好中发现规律,并基于此进行推荐,所以如何收集用户的偏好信息成为系统推荐效果最基础的决定性因素。这些信息其实可以利用很多专业的数据库进行导入,比如你在商店购买货物的历史清单,曾经对某个影视作品的评级或评论,你的淘宝购物车中的商品信息,甚至是你电脑浏览器中的保留网站浏览信息的Cookies。通过对同一商品对象的操作行为或喜好程度进行分组,即可以获得不同用户的偏好信息。
当然,对于这些杂乱无章的获取信息,最重要的就是预处理了。通过对这些信息进行减噪和归一化,才能更有利于下一步的分类和计算。
(2) 找到相似的用户和物品
在获取到用户的喜好程度之后,就可以根据某些距离计算方法对用户或者商品的相似程度,从而进行聚类操作了。常见的相似度计算方法有很多种,比如:欧氏距离,曼哈顿距离,余弦相似度等等。对于不同类型的属性向量以及系统的实时性需求,可以合理地选择不同的计算方法。
在计算用户之间的相似度时,是将一个用户对所有物品的偏好作为一个向量,而在计算物品之间的相似度时,是将所有用户的偏好作为一个向量。求出相似度之后,就可以计算相似邻居了。
(3) 计算并推荐
在计算出相似用户和相似物品之后,接下来就是推荐了。在推荐模块通常是使用信息检索的方式实现,通过“特征--物品”的倒排索引,快速找到和用户相关的物品。而在优化排序方面,可以通过优化某一指标(比如点击率、转化率)得到优化模型。以点击率为例,该模型可以利用用户特征和候选物品特征,计算出用户对物品的预估点击率,然后将候选物品按照点击率排序。预估点击率,然后将候选物品按照点击率进行排序。预估点击率只是排序参考的一个指标,在众多系统中,排序时还需要综合考虑结果的多样性和新颖性。
那么总的来看,好像协同过滤算法已经在方方面面超越了传统的聚类分析方法。那么它到底有什么缺陷呢?
(1) 冷启动问题
对于协同过滤算法来说,最严重的问题莫过于最初信息的获取了。其实这也是推荐系统的通病。巧妇难为无米之炊,没有初始的用户和商品信息,无论如何都是无法获得有效的推荐结果的。而大多数的推荐系统选择的方法是利用用户的社交账号的相关信息进行分析,比如说将你QQ账号上曾经设置成特别关心的“前男友”归结到与你相似的一类用户。所以像上面那种路遇同一个前男友的狗血剧情也就不难解释了。
(2)稀疏性问题
其实大多数的数据来源都是从网络上爬取或者从某些数据公司获取的数据库信息,而非对用户进行调研获取的(就算有成本也太高)。以某宝为例,收藏某类热门商品的用户可能有千千万,而对某些冷门商品可能就只有几个用户关心。假设总的商品数为m,总的用户数为n,在不做任何处理的情况下,要进行处理的矩阵维度为m*n,至于m*n的这个结果会有多大,作为剁手党的一员,我想,你懂得。因此,如此之大的数据矩阵会严重影响系统的处理效率。而对于这些数据又往往具有明显的稀疏性。因此,通过合理的维度约减可以有效的降低系统的处理难度,提高使用效率。
总的来说呢,协同过滤算法虽然不是当前最完美的推荐算法。但是对于具有一定用户基础和商品体量的使用者来说,往往是最简单有效的方法。因此,避开前男友的残酷问题不谈,难道你觉得自己曾经千挑万选才找到的前男友他喜欢的歌,你听起来会没有感觉嘛?