基于邻域的算法(协同过滤)和内容过滤算法

基于用户行为分析的推荐算法是个性化推荐系统的重要算法,一般将这种算法成为协同过滤算法。协同过滤,就是用户可以齐心协力,通过不断和网站互动,使自己的推荐列表能够不断过滤掉自己不感兴趣的物品,从而越来越满足自己的需求。

1. 基于邻域的算法

基于邻域的算法是推荐系统中最基本的算法,主要分为两大类,一类是基于用户的协同过滤算法(UserCF, user-based collaborative filtering),另一类是基于物品的协同过滤算法(ItemCF, item-based collaborative filtering)。

1.1 基于用户的协同过滤算法

1.1.1 基础算法

当一个用户A需要个性化推荐时,可以先找到和他有相似兴趣的其他用户,然后把那些用户喜欢的而A没有听说过的物品推荐给A。
基于用户的协同过滤算法主要包括两个步骤:

  1. 找到和目标用户兴趣相似的用户集合(余弦相似度);
  2. 找到这个集合中的用户喜欢的,且目标用户没有听说过的物品推荐给目标用户。
    步骤1的关键的计算两个用户的兴趣相似度。这里主要利用行为的相似度来计算兴趣的相似度。

举个例子:
UserA对{a,b,d}有过行为
UserB对{a,c}有过行为
UserA对{b,e}有过行为
UserA对{c,d,e}有过行为
利用余弦相似度公式计算用户A和B的兴趣相似度为

用户间的相似度

ps:余弦相似计算

UserA对{a,b,d}有过行为
UserB对{a,c}有过行为
UserA对{b,e}有过行为
UserA对{c,d,e}有过行为
转化成向量图:
    a,b,c,d,e
A  [1,1,0,1,0]
B  [1,0,1,0,0]
C  [0,1,0,0,1]
D  [0,0,1,1,1]

AB间相似度

得到用户之间的兴趣相似度之后,UserCF算法会给用户推荐和他兴趣最相似的K个用户喜欢的物品。
用户u对物品i的感兴趣程度:


用户u对物品i的感兴趣程度

S(u,K)包含和用户u感兴趣最接近的K个用户
N(i)是对物品有过行为的用户集合
wuv是用户u和用户v的相似度
rvi是用户v对物品i的兴趣(因为使用的是单一行为<有过行为>的隐反馈数据,所以为1)
用户A对物品c,e的兴趣是
p(A,c)=wAB+wAD
p(A,e)=wAC+wAD
UserCF有一个重要的参数K,即为每个用户选出K个和他兴趣最相似的用户,然后推荐那K个用户感兴趣的物品,因此离线实验要测量不同K值下的UserCF算法的性能指标(准确率、召回率、覆盖率、流行度等)。

1.1.2 实际使用UserCF的案例

Digg的推荐系统设计思路如下。用户在Digg中使用“顶”和“踩”两种行为表达自己对文章的看法。当用户顶了一篇文章,Digg认为用户对这篇文章感兴趣,且愿意把文章推荐给其他用户。然后,Digg找到所有在该用户顶文章之前也顶了这篇文章的其他用户,然后给他推荐那些人最近顶的其他文章。Digg使用的是UserCF算法的简化版本。

1.2 基于物品的协同过滤算法

1.2.1 基础算法

给用户推荐那些和他们之前喜欢的物品相似的物品。ItemCF并不利用物品的内容属性计算物品之间的相似度,它主要通过分析用户的行为记录计算物品之间的相似度。物品A和物品B具有很大的相似度是因为喜欢A的物品大都也喜欢物品B。
基于物品的协同过滤算法主要包括两个步骤:

  1. 计算物品之间的相似度;
  2. 根据物品的相似度和用户的历史行为给用户生成推荐列表。

图中最左边是输入的用户行为记录,每一行代表一个用户感兴趣的物品集合。矩阵C[i][j]记录了同时喜欢物品i和物品j的用户数。


计算物品相似度的例子

得到物品之间的相似度后,ItemCF通过如下公式计算用户u对一个物品j的兴趣。


用户u对物品j的兴趣

N(u)是用户喜欢的物品的集合
S(j,K)是和物品j最相似的K个物品的集合

wji是物品j和物品i的相似度
rui是用户u对物品i的兴趣(因为使用的是单一行为<有过行为>的隐反馈数据,所以为1)

如下图,用户喜欢《C++ Primer中文版》和《编程之美》两本书,然后ItemCF会为这两本书分别找出和它们最相似的3本书。用户对《C++ Primer中文版》的兴趣度是1.3,《C++ Primer中文版》和《C++ 编程思想》的相似度为0.7,那么用户对《C++ 编程思想》的兴趣度就是1.3*0.7=0.91。


基于物品推荐的例子

1.3 UserCF和ItemCF的综合比较

为什么Digg使用UserCF,而亚马逊使用ItemCF?
UserCF的推荐结果着重于反映和用户兴趣相似的小群体的热点,而ItemCF的推荐结果着重于维系用户的历史兴趣。
新闻网站中,用户的兴趣不是特别细化,绝大多数用户喜欢看热门的新闻。UserCF可以给用户推荐和他有相似爱好的一群其他用户今天都在看的新闻,这样在抓住热点和时效性的同事,保证了一定程度的个性化。另一个技术方面的原因,ItemCF需要维护一张物品相关度的表,如果物品更新很快,技术上很难实现,多数相似度表通常只能做到一天更新一次,在新闻领域无法接受。
但在图书、电子商务和电影网站中,ItemCF能发挥较大优势。首先,这些网站中用户的兴趣是比较固定和持久的。此外,这些网站中个性化推荐的任务是帮助用户发现和他研究领域相关的物品,这些用户不太需要流行度来辅助他们判断一个物品的好坏,而是可以通过自己熟悉领域的知识自己判断物品的质量。

2. 利用物品内容信息冷启动

UserCF给用户进行推荐时,会首先找到和用户兴趣相似的一群用户,然后给用户推荐这一群用户喜欢的物品。UserCF需要解决第一推动力的问题,即第一个用户从哪发现新的物品。解决第一推动力最简单的方法是将新的物品随机展示给用户,这样不够个性化,因此可以考虑利用物品的内容信息,将新物品先投放给曾经喜欢过和它内容相似的其他物品。
ItemCF算法的原理是给用户推荐和他之前喜欢的物品相似的物品。ItemCF算法会每隔一段时间利用用户行为计算物品相似度表,在线服务时ItemCF算法会将之前计算好的物品相似度矩阵放在内存中。当新的物品加入时,内存中的物品相关表中不会存在这个物品,从而ItemCF无法推荐新的物品。新物品不展示给用户,用户就无法对它产生行为,通过行为日志计算不出好办新物品的矩阵。因此,只能利用物品的内容信息计算物品的相关表,并频繁地更新相关表。
既然内容相似度计算简单,能频繁更新,而且能够姐姐物品冷启动的问题,那为什么还需要协同过滤的算法?很多时候,内容过滤算法的精度比协同过滤算法差。但当用户的行为强烈受某一内容属性的影响,那么内容过滤算法可以在精度上超过协同过滤算法。例如,GitHub的内容过滤算法优于协同过滤算法,是因为GitHub提供了一个非常强的内容特征,就是开源项目的作者。程序员会经常关注关注同一个作者的不同项目,而协同过滤算法由于数据稀疏的影响,不能从用户行为中完全统计出这一特征,所以协同过滤算法反而不如内容过滤算法。

来源:项亮.推荐系统实践[M].人民邮电出版社:北京,2012:1-197.
参考:余弦相似计算:https://www.jianshu.com/p/f4606ae118b3

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,254评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,875评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,682评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,896评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,015评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,152评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,208评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,962评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,388评论 1 304
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,700评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,867评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,551评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,186评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,901评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,142评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,689评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,757评论 2 351

推荐阅读更多精彩内容