推荐系统系列之协同过滤

一、协同过滤基本思想

举个例子,某天你想去看电影,但又不知道看哪部,想请朋友推荐,大部分会倾向于去问与自己有相同偏好的朋友,因为这类朋友推荐的电影很大可能性你也 会喜欢。协同过滤就是基于这种思想,偏好相似的用户喜欢的物品或内容也是相似的。该推荐算法是基于用户对物品的偏好信息,衡量用户之间的相似性或物品之间 的相似性,然后进行推荐,将相似用户喜欢的物品推荐给当前用户,或基于当前用户的喜好将相似物品推荐给用户。以上这两种就是常见的基于用户的协同过滤和基 于物品的协同过滤。

二、常用的距离度量

如何衡量用户之间、物品之间的相似性呢?我们用距离来刻画相似性,距离越小,说明相似性越高,距离越大,说明相似性越低。常用的距离度量有欧式距离、余弦距离等。

由于距离在很多算法中均会用到,比如分类算法、聚类算法等,我们会有个专门的章节来介绍距离度量。

三、基于用户的协同过滤

我们以上图为例来简要说明基于用户的协同过滤是如何工作的。用户A偏好物品A,用户B偏好物品A、B、C,用户C偏好物品B、C,我们将其转换为以下的表格:

用户物品A物品B物品C

用户A100

用户B111

用户C011

假设我们要对用户C进行推荐,基于欧式距离,计算用户C与用户A、用户B的距离(每一行代表一个用户的偏好信息),发现用户C与用户B的距离最小,相似度最高,说明他们的偏好比较一致,可将用户B偏好的而用户C还没有偏好的物品A推荐给用户C。

四、基于物品的协同过滤

接下来我们以上图为例来简要说明基于物品的协同过滤是如何工作的。用户A偏好物品A,用户B偏好物品B、物品C,用户C偏好物品C,同样地,我们将其转为表格形式:

用户物品A物品B物品C

用户A100

用户B011

用户C001

假设我们想推荐物品B,基于欧式距离计算物品B与物品A、物品C之间的距离(每一列代表一个物品的信息),发现物品B与物品C的距离最小,相似性最高,说明物品B、C比较相似,可能是同类产品,我们可将物品B推荐给喜欢物品C却还没对物品B表示出偏好的用户C。

五、协同过滤的基本步骤

STEP1 : 收集数据

收集用户对物品的偏好信息,主要包含以下内容:

显式的用户反馈:用户在浏览、使用网站以外,显式提供的反馈信息,比如用户对物品的评分、评论等;

隐式的用户反馈:用户在浏览、使用网站时产生的数据,隐式地反映了用户的偏好,比如订购信息、浏览信息等;

用户表达偏好的方式有很多种,不同应用也是大不相同的。比如对文章的转发、收藏,对活动的投票等也是显式的偏好反馈,用户浏览网站时停留时间也是一种隐式的反馈,不过这一个指标的噪声较大。

STEP2 : 数据预处理

如何整合显式、隐式的偏好反馈信息呢?有以下两种方法。

分组:显式反馈为一组,隐式反馈为一组,然后基于不同的行为组别分别计算用户之间或物品之间的相似度;亚马逊上在商品详情页进行推荐时一般都会有‘购买此商品的顾客也同时购买’和‘看过此商品后顾客买的其他商品’这两种方式的推荐;

加权:根据不同行为反映的偏好程度进行加权,显式反馈的权重大,隐式权重小,得到用户对物品的总体偏好;

整合后如何进行数据预处理呢?

减噪:这些偏好反馈信息可能会存在大量的噪声,可应用常用的减噪算法进行清洗,或作离群点识别等;

归一化: 不同偏好行为对应的数据的量纲会有很大的差别,需统一量纲;

聚类:在用户数或物品数很大的情况下,可先对用户和物品进行聚类,形成用户群和物品群,将单个用户对单个物品的偏好转换为某个用户群对某个物品群的偏好,可降低整个推荐算法的计算量,当然推荐精度也会受影响;

STEP3 : 最近邻搜索

基于用户的协同过滤:计算用户之间的相似性,找到与当前用户最相似的N个用户,如果在数据预处理中进行了聚类,就计算用户群之间的相似性,找到最邻近的N个用户群;

基于物品的协调过滤:计算物品之间的相似性,找到与当前物品最相似的N个物品,同样的,如果进行了聚类,就计算物品群之间的相似性,找到最邻近的N个物品群;

STEP4 : 进行推荐

基于用户的协同过滤:将最近邻用户(群)中出现频次较高并且还未出现在当前用户偏好列表中的物品推荐给当前用户;

基于物品的协同过滤:根据当前用户的偏好列表,将最相似的物品推荐给用户;

六、应用场景

基于用户的协调过滤和基于物品的协调过滤都能达到不错的效果,但在应用场景上会存在一定的区别。如果一个电商网站,用户的数量远超物品的数量, 同时物品信息相对稳定,在这种情况下基于物品的协同过滤算法更合适,不仅计算量小,而且不用频繁更新;如果是一个新闻或者是博客网站,内容数据偏多且不断 更新,这时候可采用基于用户的协同过滤。从计算的复杂度来讲,这两个算法各有优势,我们要根据不同系统的各自特点去选择。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,651评论 6 501
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,468评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,931评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,218评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,234评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,198评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,084评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,926评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,341评论 1 311
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,563评论 2 333
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,731评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,430评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,036评论 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,676评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,829评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,743评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,629评论 2 354

推荐阅读更多精彩内容