协同过滤

协同过滤(Collaborative Filtering,CF)——经典/老牌
只用户行为数据得到。对于U个用户,I个物品,则有共现矩阵U \times I:
对于有正负反馈的情况,如“赞”是1和“踩”是-1,无操作是0:
\begin{pmatrix} & I_1 & I_2 & I_3 & I_4\\ U_1 & 1 & -1 & 1 & 1 \\ U_2 & 0 & 1 & -1 & -1 \\ U_3 & 1 & 1 & -1& 0 \\ U_4 & -1& 0 & 1 & 0 \\ U_5 & 1 & 1 & -1 & -1 \\ \end{pmatrix}
对于只有显示反馈,如点击是1,无操作是0:
\begin{pmatrix} & I_1 & I_2 & I_3 & I_4 \\ U_1 & 1 & 0 & 1 & 1 \\ U_2 & 0 & 1 & 0 & 0 \\ U_3 & 1 & 1 & 0& 0 \\ U_4 & 0& 0 & 1 & 0 \\ U_5 & 1 & 1 & 0 & 0 \\ \end{pmatrix}

UserCF

算法步骤:
1)得到共现矩阵U \times I
2)计算任意两行用户相似度,得到用户相似度矩阵U \times U
3)针对某个用户U_x选出与其最相似的Top\;n个用户,n是超参数;——召回阶段
4)基于这Top\;n个用户,计算U_x对每个物品的得分;
5)按照用户U_x的物品得分进行排序,过滤已推荐的物品,推荐剩下得分最高的k个。——排序阶段

第2步中,怎么计算用户相似度?——使用共现矩阵的行
以余弦相似度为标准,计算U_2U_3之间的相似度:
U_2=[0,1,-1,-1]
U_3=[1,1,-1,0]
cos(U_2,U_3)=\frac{0+1+1+0}{\sqrt{3}*\sqrt{3}}=\frac{2}{3}

第4步中,怎么每个用户对每个物品的得分?
假如和用户U_2最相似的2个为U_3U_5:
U_{2,3}=0.7
U_{2,5}=0.6
U_3对物品I_1的评分为1,用户U_5对物品I_1的评分也为1,那么用户U_2I_1的评分为:
Score= \frac{0.7*1+0.6*1}{0.7+0.6}=1

也就是说:利用用户相似度对用户评分进行加权平均:
R_{u,p}=\frac{\sum_{s\in\;n个最相似用户}(W_{u,s}*R_{s,p})}{\sum_{s\in\;n个最相似用户}W_{u,s}}
其中,W_{u,s}为用户u和用户s之间的相似度,R_{s,p}为用户s和物品p之间的相似度。

UserCF的缺点
1、现实中用户数远远大于物品数,所以维护用户相似度矩阵代价很大;
2、共现矩阵是很稀疏的,那么计算计算用户相似度的准确度很低。

IteamCF

算法步骤:
1)得到共现矩阵U \times I
2)计算任意两列物品相似度,得到物品相似度矩阵I \times I
3)对于有正负反馈的,获得用户U_x正反馈的物品;
4)找出用户U_x正反馈的物品最相似的k个物品,组成相似物品集合;——召回阶段
5)利用相似度分值对相似物品集合进行排序,生产推荐列表。——排序阶段
最简单情况下一个物品(用户未接触的)只出现在另一个物品(用户已反馈的)的最相似集合中,那么每个用户对每个物品的得分就是相似度。如果一个物品和多个物品最相似怎么办?
如用户正反馈的是I_1I_2,对于物品I_1其最相似的是I_3,相似度为0.7,对于物品I_2其最相似的也是I_3,相似度为0.6,那么I_3相似度为:
R_{I_3}=0.7*1+0.6*1=1.3
也就是说:如果一个物品出现在多个物品的k个最相似的物品集合中,那么该物品的相似度为多个相似度乘以对应评分的累加。
R_{u,p}=\sum_{h \in 用户u正反馈物品集合}(W_{p,h}*R_{u,h})
其中,W_{p,h}是物品p与物品h的相似度,R_{u,h}是用户u对物品p的评分。

第2步中,怎么计算物品相似度?——使用共现矩阵的列
以余弦相似度为标准,计算I_2I_3之间的相似度:
I_2=[-1,1,1,0,1]
I_3=[1,-1,-1,1,-1]
cos(I_2,I_3)=\frac{1+1+1+0+1}{\sqrt{4}*\sqrt{5}}=\frac{4}{\sqrt{20}}

相似度计算标准

余弦相似度
皮尔逊相关系数
基于皮尔逊相关系数的改进

UserCF与IteamCF的对比

UserCF适用于用户兴趣比较分散变换较快的场景,如新闻推荐。
IteamCF适用于用户情趣不叫稳定的场景,如电商推荐。

协同过滤的优缺点

优点:直观,可解释性强。
缺点:

  • 协同过滤记忆能力强,泛化能力弱;
  • 具有明显的头部效应(马太效应),很多用户都有对热门物品的历史行为导致绝大多数物品对热门物品的相似度都高;
  • 处理稀疏向量能力弱。
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,142评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,298评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,068评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,081评论 1 291
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,099评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,071评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,990评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,832评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,274评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,488评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,649评论 1 347
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,378评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,979评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,625评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,796评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,643评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,545评论 2 352

推荐阅读更多精彩内容