协同过滤

协同过滤(Collaborative Filtering,CF)——经典/老牌
只用户行为数据得到。对于U个用户,I个物品,则有共现矩阵U \times I:
对于有正负反馈的情况,如“赞”是1和“踩”是-1,无操作是0:
\begin{pmatrix} & I_1 & I_2 & I_3 & I_4\\ U_1 & 1 & -1 & 1 & 1 \\ U_2 & 0 & 1 & -1 & -1 \\ U_3 & 1 & 1 & -1& 0 \\ U_4 & -1& 0 & 1 & 0 \\ U_5 & 1 & 1 & -1 & -1 \\ \end{pmatrix}
对于只有显示反馈,如点击是1,无操作是0:
\begin{pmatrix} & I_1 & I_2 & I_3 & I_4 \\ U_1 & 1 & 0 & 1 & 1 \\ U_2 & 0 & 1 & 0 & 0 \\ U_3 & 1 & 1 & 0& 0 \\ U_4 & 0& 0 & 1 & 0 \\ U_5 & 1 & 1 & 0 & 0 \\ \end{pmatrix}

UserCF

算法步骤:
1)得到共现矩阵U \times I
2)计算任意两行用户相似度,得到用户相似度矩阵U \times U
3)针对某个用户U_x选出与其最相似的Top\;n个用户,n是超参数;——召回阶段
4)基于这Top\;n个用户,计算U_x对每个物品的得分;
5)按照用户U_x的物品得分进行排序,过滤已推荐的物品,推荐剩下得分最高的k个。——排序阶段

第2步中,怎么计算用户相似度?——使用共现矩阵的行
以余弦相似度为标准,计算U_2U_3之间的相似度:
U_2=[0,1,-1,-1]
U_3=[1,1,-1,0]
cos(U_2,U_3)=\frac{0+1+1+0}{\sqrt{3}*\sqrt{3}}=\frac{2}{3}

第4步中,怎么每个用户对每个物品的得分?
假如和用户U_2最相似的2个为U_3U_5:
U_{2,3}=0.7
U_{2,5}=0.6
U_3对物品I_1的评分为1,用户U_5对物品I_1的评分也为1,那么用户U_2I_1的评分为:
Score= \frac{0.7*1+0.6*1}{0.7+0.6}=1

也就是说:利用用户相似度对用户评分进行加权平均:
R_{u,p}=\frac{\sum_{s\in\;n个最相似用户}(W_{u,s}*R_{s,p})}{\sum_{s\in\;n个最相似用户}W_{u,s}}
其中,W_{u,s}为用户u和用户s之间的相似度,R_{s,p}为用户s和物品p之间的相似度。

UserCF的缺点
1、现实中用户数远远大于物品数,所以维护用户相似度矩阵代价很大;
2、共现矩阵是很稀疏的,那么计算计算用户相似度的准确度很低。

IteamCF

算法步骤:
1)得到共现矩阵U \times I
2)计算任意两列物品相似度,得到物品相似度矩阵I \times I
3)对于有正负反馈的,获得用户U_x正反馈的物品;
4)找出用户U_x正反馈的物品最相似的k个物品,组成相似物品集合;——召回阶段
5)利用相似度分值对相似物品集合进行排序,生产推荐列表。——排序阶段
最简单情况下一个物品(用户未接触的)只出现在另一个物品(用户已反馈的)的最相似集合中,那么每个用户对每个物品的得分就是相似度。如果一个物品和多个物品最相似怎么办?
如用户正反馈的是I_1I_2,对于物品I_1其最相似的是I_3,相似度为0.7,对于物品I_2其最相似的也是I_3,相似度为0.6,那么I_3相似度为:
R_{I_3}=0.7*1+0.6*1=1.3
也就是说:如果一个物品出现在多个物品的k个最相似的物品集合中,那么该物品的相似度为多个相似度乘以对应评分的累加。
R_{u,p}=\sum_{h \in 用户u正反馈物品集合}(W_{p,h}*R_{u,h})
其中,W_{p,h}是物品p与物品h的相似度,R_{u,h}是用户u对物品p的评分。

第2步中,怎么计算物品相似度?——使用共现矩阵的列
以余弦相似度为标准,计算I_2I_3之间的相似度:
I_2=[-1,1,1,0,1]
I_3=[1,-1,-1,1,-1]
cos(I_2,I_3)=\frac{1+1+1+0+1}{\sqrt{4}*\sqrt{5}}=\frac{4}{\sqrt{20}}

相似度计算标准

余弦相似度
皮尔逊相关系数
基于皮尔逊相关系数的改进

UserCF与IteamCF的对比

UserCF适用于用户兴趣比较分散变换较快的场景,如新闻推荐。
IteamCF适用于用户情趣不叫稳定的场景,如电商推荐。

协同过滤的优缺点

优点:直观,可解释性强。
缺点:

  • 协同过滤记忆能力强,泛化能力弱;
  • 具有明显的头部效应(马太效应),很多用户都有对热门物品的历史行为导致绝大多数物品对热门物品的相似度都高;
  • 处理稀疏向量能力弱。
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容