多路召回策略,是指采用不同的策略、特征或简单模型,分别召回一部分候选集,然后将候选集合并在一起用于后续排序模型使用。多路召回通常需要在计算速度和召回率之间权衡选择,简单的召回策略可以快速召回候选集,不同角度设计的召回策略可以尽量满足召回率。多路召回中,每个策略之间毫不相关,一般可以写并发多线程同时进行。
此次多路召回策略包含:
-
Youtube DNN召回
YoutubeDNN召回可直接获取用户召回的候选文章列表,原理及应用可看:- 重读Youtube深度学习推荐系统论文,字字珠玑,惊为神文 (zhihu.com)
- YouTube深度学习推荐系统的十大工程问题 (zhihu.com)
- https://zhuanlan.zhihu.com/p/52169807 (YouTubeDNN原理)
- https://zhuanlan.zhihu.com/p/26306795 (Word2Vec知乎众赞文章) --- word2vec放到排序中的w2v的介绍部分
-
基于文章的召回
根据物品相似度,对用户推荐与其历史阅读文章相似的文章- 基于关联规则物品协同过滤
- 物品embedding相似度召回
-
基于用户的召回
根据用户相似度,对用户推荐与该用户相似的用户群阅读的文章- 基于关联规则用户协同过滤(太吃内存没有运行)
- 用户embedding相似度召回(使用YoutubeDNN训练得到的embedding)
文章冷启动召回
冷启动做法:1.基于embedding召回部分与用户历史相似的文章
2.采用文章字数,文章主题,阅读时间等规则过滤
冷启动问题可分成三类:文章冷启动、用户冷启动、系统冷启动
多路召回合并:对不同召回策略取得的候选集合合并时,可通过召回策略评估结果调整召回策略的权重。