1 属性的取值问题
对离散型的属性可进行独热编码,那么对连续型属性我们该如何处理呢?进行0-1标准化处理?
2 计算过程
我们通过简单的加减乘除就实现了计算,并没有像机器学习里面一样定义损失函数,划分训练集和测试集之类的操作。
3 该方法的一些优点与不足
优点:推荐的物品不会太热门,因为计算过程中我们只考虑了单个用户的历史评分数据;个性化效果较好;原理易于理解。
不足:对于新的没有历史评分数据的用户,存在冷启动问题;相同内容特征的物品差异性较小,不一定是用户想要的;要求物品的属性能比较容易抽取。
4 可优化的地方
如果引入时间因子,即考虑到用户的兴趣会随时间迁移的问题,则我们在1.1小节中计算系数的公式也应改变一下。
其中,为衰减因子,t=t(i) 可取为用户对物品 i 的评分时间到当前时间的时间间隔。为简单起见,对所有用户,我们可以应用同一个值。再深入一点研究的话,应该是不同的用户兴趣衰减的快慢也不一样,即=。