推荐引擎-今日头条-技术架构2017/2/22

转移

有人说，今日头条是靠预装兴起的，然而预装的客户端那么多，只有他留下，显然他的推荐更加符合用户口味。内容精准化推荐。2012 年到 2016 年，新闻客户端一直是国内各个科技大公司的争夺之地，网易、搜狐、新浪、百度、腾讯，一直在力推旗下新闻阅读类的产品。而且，几年前在各个移动互联网的 app 都还没钱打线下广告的时候，首先开始进驻飞机场、地铁站、公交站等广告牌的，正是这些财大气粗的新闻门户。而今日头条，从这些巨头当中突围而出，如果仅仅是按照传统的新闻采编方式——在资源不对称的情况下，很难成为一匹黑马。

今日头条做的是泛阅读，如果做精品阅读显然做不了。目标用户是中下层屌丝群体，用户数目大。

技术与架构演进

1、文章抓取与分析

2016年，今日头条利用抓取技术，每日抓取100万个网页，自生产原创内容1万篇。

头条的频道，在技术侧划分的包括分类频道、兴趣标签频道、关键词频道、文本分析等

计算文章的分类，文章实体词的抽取。对文本分析处理，分类，标签，主题抽取，按照文章或新闻所在地区，热度，权重计算。

对资源内容提取几十个到几百个高维特征，并进行降维、相似计算、聚类、分类等处理。

2、用户建模

基础数据：用户使用的手机，操作系统，版本等“识别”，城市位置，WiFi还是4G，登录信息如手机号，手机安装渠道。

启动方式之一：知乎、Quora让人手选感兴趣的话题。另外一种方式是给初始的歌曲或电影选择喜欢不喜欢。然后产生初始值，然而用户的行为数据都不足以产生高质量的推荐。

微博数据：通过对用户微博账号的分析建立兴趣图谱，通过对用户微博账号的分析建立一个“兴趣图谱”，即根据用户在微博上发布的内容及其所属类别、社交关系、社交行为、参与的群组、机型、使用时间、用户订阅的频道（电影段子商品）等来数据源来推断出用户的兴趣点有哪些。社交关系、社交行为即用户和用户之间的交流状况，可以根据二者间的共同好友数、相互评论熟、@数等来做度量。（想想新浪在怎么用）。借助社交平台，如微博的open api，结合微博上下文语义或关键词分析对用户进行标签分类，根据用户的feature属性进行初始化分类建模

用户标签形象，兴趣图谱：（一种今日头条的兴趣标签：移动互联网，HTML5，程序员，互联网，云计算，用户体验，创业，手机游戏，ios，CSDN，IT，Python，Android，数据挖掘，电子商务，技术管理，设计，游戏引擎，移动开发，项目管理，JavaScript，移动应用，移动应用开发，闷骚男型，MVP，web前端，用户研究，皮尔斯，nba，武汉，自然语言处理，百度，风险投资，浏览器，加内特，新媒体，geek，创业投资，java，软件开发，视觉设计，旅行，方大同，社交游戏，天蝎座，机器学习，交互设计，创新工场，数码控，网页游戏，动漫，文学，历史，天使投资，羽毛球，热火，足球，艺术，美剧）

点击查看、转发、存储为书签、页面停留时间、购买、评论，对行为附权。显式行为权值更高。

降噪：用户行为数据是用户在使用应用过程中产生的，它可能存在大量的噪音和用户的误操作，我们可以通过经典的数据挖掘算法过滤掉行为数据中的噪音，这样可以是我们的分析更加精确。

建立标签体系，树状结构，配上权重（-1~1）。

在用户每次操作后的30秒内，系统就会对用户模型进行更新。随着用户行为数据的积累，系统为每个用户建立的兴趣模型就越精确。

评估主动行为下，对于原有用户模型的影响，影响程度如何。

按照用户模型成熟程度做一次区分：冷启动用户、发展期用户、成熟期用户。针对不同阶段的用户，用不同的评价指标进行分析。

3、用户行为数据？？？？待处理。怎么把内容与标签匹配。匹配算法使怎样的？

用户角度：用户单个点击行为，屏幕滑动停留时间，有业务联系的点击行为

内容角度：点击率，点击量

用户的正负反馈匹配精准。正反馈：包括用户点击了、看了很长时间、分享了、收藏了、评论了，都是正反馈。负反馈反而是比较难获取的，现在今日头条在内容上设置了一个小叉，点击之后，会咨询用户不感兴趣的理由，这种做法则会获取比较强的负反馈。但是通过这种方式收集到的数据还不多。

任何行为和业务都是可以追踪的。不同纬度的策略支持。具有真实的业务需求。频率个性化，内容个性化。

4、用户内容建立关系

比如：按照城市：朝阳发生的某个新闻事件，发给朝阳本地的用户。按照兴趣：比如京东收购一号店，发给互联网兴趣的用户。环境特征：推荐是一个情景化的事。比如我自己早上，会看一看科技新闻。周末晚上会看搞笑视频。还有网络环境，你要有wifi的话，给你多推视频。

a)推送去重，推荐信息注意需要消重。用户视角，看到两篇相同的标题或图片的文章，用户体验非常不好。内容消重，标题图片消重，相似主题消重。;b）人工方式审核过滤作为补充，不良内容直接处理掉，高质量内容赋予更大的权值；c)A/B Test;d)后端监控，对内容监控，过多举报直接删除，超出阈值的重点关注。

推荐引擎-今日头条-技术架构2017/2/22

推荐引擎-今日头条-技术架构2017/2/22

相关阅读更多精彩内容

友情链接更多精彩内容