1. 推荐系统架构
内容来源:1)来源 2)打标签
在线分发:召回-> 粗排 -> 精排 -> 重排 -> 规则 -> 分发
内容来源
内容源的收集与规范化
(站点)-爬虫->(内容源总库)-内容理解->(内容画像)-人工审核->(推荐池)
内容理解:分类、分词、关键词提取
接口:
http请求:Flask,fastAPI,Django,Tornado
rpc请求:Thrift
在线分发
召回:
协同、双塔、用户画像、热度召回等
召回阶段的主要职责是:从千万量级的候选物品里,采取简单模型将推荐物品候选集合快速筛减到千级别甚至百级别,这样将候选集合数量降下来,之后在排序阶段就可以上一些复杂模型,细致地对候选集进行个性化排序。
排序:
对多个召回方法的结果进行统一打分并排序,选出最优Top K。筛选:CTR预估的rank模型,相当于精排序:使用一个点击率预估模型(输入用户特征,内容特征,用户内容交叉特征等)对召回出来的内容进行排序
重排:
保证结果多样性、实时调整
2. 算法模型
模型数据来源:从数据中心通过消息队列取得数据日志
模型训练与更新
增量更新,每隔一段时间全量更新一次
3. 协同
协同可以理解为相似,基于用户的协同就是基于用户的相似度,基于物品的协同就是基于物品的相似度。