转移
有人说,今日头条是靠预装兴起的,然而预装的客户端那么多,只有他留下,显然他的推荐更加符合用户口味。内容精准化推荐。2012 年到 2016 年,新闻客户端一直是国内各个科技大公司的争夺之地,网易、搜狐、新浪、百度、腾讯,一直在力推旗下新闻阅读类的产品。而且,几年前在各个移动互联网的 app 都还没钱打线下广告的时候,首先开始进驻飞机场、地铁站、公交站等广告牌的,正是这些财大气粗的新闻门户。而 今日头条,从这些巨头当中突围而出,如果仅仅是按照传统的新闻采编方式——在资源不对称的情况下,很难成为一匹黑马。
今日头条做的是泛阅读,如果做精品阅读显然做不了。目标用户是中下层屌丝群体,用户数目大。
技术与架构演进
1、文章抓取与分析
2016年,今日头条利用抓取技术,每日抓取100万个网页,自生产原创内容1万篇。
头条的频道,在技术侧划分的包括分类频道、兴趣标签频道、关键词频道、文本分析等
计算文章的分类,文章实体词的抽取。对文本分析处理,分类,标签,主题抽取,按照文章或新闻所在地区,热度,权重计算。
对资源内容提取几十个到几百个高维特征,并进行降维、相似计算、聚类、分类等处理。
2、用户建模
基础数据:用户使用的手机,操作系统,版本等“识别”,城市位置,WiFi还是4G,登录信息如手机号,手机安装渠道。
启动方式之一:知乎、Quora让人手选感兴趣的话题。另外一种方式是给初始的歌曲或电影选择喜欢不喜欢。然后产生初始值,然而用户的行为数据都不足以产生高质量的推荐。
微博数据:通过对用户微博账号的分析建立兴趣图谱,通过对用户微博账号的分析建立一个“兴趣图谱”,即根据用户在微博上发布的内容及其所属类别、社交关系、社交行为、参与的群组、机型、使用时间、用户订阅的频道(电影段子商品)等来数据源来推断出用户的兴趣点有哪些。社交关系、社交行为即用户和用户之间的交流状况,可以根据二者间的共同好友数、相互评论熟、@数等来做度量。(想想新浪在怎么用)。借助社交平台,如微博的open api,结合微博上下文语义或关键词分析对用户进行标签分类,根据用户的feature属性进行初始化分类建模
用户标签形象,兴趣图谱:(一种今日头条的兴趣标签:移动互联网,HTML5,程序员,互联网,云计算,用户体验,创业,手机游戏,ios,CSDN,IT,Python,Android,数据挖掘,电子商务,技术管理,设计,游戏引擎,移动开发,项目管理,JavaScript,移动应用,移动应用开发,闷骚男型,MVP,web前端,用户研究,皮尔斯,nba,武汉,自然语言处理,百度,风险投资,浏览器,加内特,新媒体,geek,创业投资,java,软件开发,视觉设计,旅行,方大同,社交游戏,天蝎座,机器学习,交互设计,创新工场,数码控,网页游戏,动漫,文学,历史,天使投资,羽毛球,热火,足球,艺术,美剧)
点击查看、转发、存储为书签、页面停留时间、购买、评论,对行为附权。显式行为权值更高。
降噪:用户行为数据是用户在使用应用过程中产生的,它可能存在大量的噪音和用户的误操作,我们可以通过经典的数据挖掘算法过滤掉行为数据中的噪音,这样可以是我们的分析更加精确。
建立标签体系,树状结构,配上权重(-1~1)。
在用户每次操作后的30秒内,系统就会对用户模型进行更新。随着用户行为数据的积累,系统为每个用户建立的兴趣模型就越精确。
评估主动行为下,对于原有用户模型的影响,影响程度如何。
按照用户模型成熟程度做一次区分:冷启动用户、发展期用户、成熟期用户。针对不同阶段的用户,用不同的评价指标进行分析。
3、用户行为数据????待处理。怎么把内容与标签匹配。匹配算法使怎样的?
用户角度:用户单个点击行为,屏幕滑动停留时间,有业务联系的点击行为
内容角度:点击率,点击量
用户的正负反馈匹配精准。正反馈:包括用户点击了、看了很长时间、分享了、收藏了、评论了,都是正反馈。负反馈反而是比较难获取的,现在今日头条在内容上设置了一个小叉,点击之后,会咨询用户不感兴趣的理由,这种做法则会获取比较强的负反馈。但是通过这种方式收集到的数据还不多。
任何行为和业务都是可以追踪的。不同纬度的策略支持。具有真实的业务需求。频率个性化,内容个性化。
4、用户内容建立关系
比如:按照城市:朝阳发生的某个新闻事件,发给朝阳本地的用户。按照兴趣:比如京东收购一号店,发给互联网兴趣的用户。环境特征:推荐是一个情景化的事。比如我自己早上,会看一看科技新闻。周末晚上会看搞笑视频。还有网络环境,你要有wifi的话,给你多推视频。
a)推送去重,推荐信息注意需要消重。用户视角,看到两篇相同的标题或图片的文章,用户体验非常不好。内容消重,标题图片消重,相似主题消重。;b)人工方式审核过滤作为补充,不良内容直接处理掉,高质量内容赋予更大的权值;c)A/B Test;d)后端监控,对内容监控,过多举报直接删除,超出阈值的重点关注。