1 信息流推荐架构
聚合信息流
内容采集和分析 抓取,标注,分配ID,运营边界和调性,CMS,队列通知离线计算
离线计算 推荐结果,用户画像,排序模型
推荐服务
日志收集和其他配套 监控,日志,可视化
社交动态聚合流
- 整体框架
日志收集
动态发布和分发
离线计算
在线服务
监控报警
指标计算 - 数据模型
Time Actor Verb Object Target Title Summary
From To Type/Name Affinity
动态存储Mysql, Redis, Cassandra
关系存储Mysql
用户存储Mysql - 动态分发
推(活跃度高)和拉(活跃度低)
结合生产和消费的关系
中小型社交网络用推的就行 - 信息流排序
避免没有目标(量化好正向和负向互动)和人为加权降权
分为三种:生成样本,排序训练,模型部署
2 个性化首页架构
- 首页架构
在线层:简单算法,预测,过滤调权,重排过滤等特殊处理
离线层:计算离线推荐结果,计算模型参数
中间层:流计算,近实时计算,画像更新,模型小批量梯度下降更新 - 简化架构
只要在线和离线层;避免使用分布式系统,在百万级别的物品协同过滤,单机就行
3 搜索,推荐,广告
搜索解决的是如何快速找到想要的信息
推荐更多样性,探索用户兴趣,抓住用户注意力
广告系统包含商业目标,关注商业利益最大化