2008 - 《Video Suggestion and Discovery for YouTube》
1.推荐算法
2.实验
1)数据准备
- 相同区域的5.4m用户的播放行为
- 完成率超过33%就认为是真的喜欢这个视频,总播放数29 million,4.2 million 视频(只有正样本)
- 前面46天作为训练集,剩下的作为测试集
- 如果用户对一个视频在训练集中没有播放但是在测试集中有效播放了,我们就认为是一次成功的推荐
- 去掉了那些不都在测试集和训练集中出现的用户和视频后还有1.1m用户和1.3m的视频,12.5m的播放
- 评价指标主要是准确率和召回率,通过Precision-Recall-Threshold curves和 top-rank quality assessment展现
2)可能存在的问题和解决方法
- Hindsight is not 20/20: 用户没观看有可能就是没看到,没办法
- 用户观看视频个数可能差别很大,需要通过roc曲线来反应,而不能只看p和r
- 推荐是在某一个时间点进行的,一些用户实时兴趣或者热点事件评估中无法考虑到
-
新的视频和新的用户,去掉一些不在的视频和用户可以解决
3)算法比对图