何为 “好” 的推荐算法
这篇文章来自于Greg Linden,貌似是那位发明协同过滤算法的大神。文章很短,主要是质疑RMSE这个指标是否意味着,推荐算法是好的。年代比较老,09年的文章,但是依然有一定的指导意义,和思考价值。
众所周知,Netflix竞赛是以RMSE作为评价指标的。作者提出来几点值得思考的地方。
- 对于RMSE来说,评价Rreal与Rpred的差的平方是一个指标,而并不关心,Rreal和Rpred是多少。Rreal是3.5,我们的系统评测成2.5,可能用户不太关心,对他来说反正就是不太值得一看一买的item。但是如果Rreal是5,我们的系统评测成了4,这就意味着用户特别喜欢的东西你给排在后面了,可能就会影响用户的体验。所以说只看差异有一定问题
- 第二点就是从Top N推荐来看的。说以RMSE最小化可能和Top N推荐有一定的矛盾。因为“优化的目标”不一样。RMSE考虑了所有的item,也就是用户并不关心那些个item。另外说到了Top N推荐和搜索引擎的相似性,都是首要考虑precision,recall相对来说只在重要结果缺失的情况下考量。这些年使用learning to rank的方案对top N推荐排序,以及搜索排序的经验,可以说Linden想得的确很对
- 推荐理由。目前部分搜索也会有一些类似于标签的功能,给出来排在前面的理由。这是因为给出理由更容易让用户信服。效果更好。用户对于相关与否的判断有一定程度的偏向,例如网速度快,可能就更相关,颜色正规,内容格式舒服,都有可能造成用户感觉。因此,正规性和质量也是rank一个item应该考虑的。
文章地址
https://cacm.acm.org/blogs/blog-cacm/22925-what-is-a-good-recommendation-algorithm/fulltext