推荐引擎-今日头条-技术架构2017/2/22

转移

有人说,今日头条是靠预装兴起的,然而预装的客户端那么多,只有他留下,显然他的推荐更加符合用户口味。内容精准化推荐。2012 年到 2016 年,新闻客户端一直是国内各个科技大公司的争夺之地,网易、搜狐、新浪、百度、腾讯,一直在力推旗下新闻阅读类的产品。而且,几年前在各个移动互联网的 app 都还没钱打线下广告的时候,首先开始进驻飞机场、地铁站、公交站等广告牌的,正是这些财大气粗的新闻门户。而 今日头条,从这些巨头当中突围而出,如果仅仅是按照传统的新闻采编方式——在资源不对称的情况下,很难成为一匹黑马。


今日头条做的是泛阅读,如果做精品阅读显然做不了。目标用户是中下层屌丝群体,用户数目大。

技术与架构演进

1、文章抓取与分析

2016年,今日头条利用抓取技术,每日抓取100万个网页,自生产原创内容1万篇。

头条的频道,在技术侧划分的包括分类频道、兴趣标签频道、关键词频道、文本分析等

计算文章的分类,文章实体词的抽取。对文本分析处理,分类,标签,主题抽取,按照文章或新闻所在地区,热度,权重计算。

对资源内容提取几十个到几百个高维特征,并进行降维、相似计算、聚类、分类等处理。

2、用户建模

基础数据:用户使用的手机,操作系统,版本等“识别”,城市位置,WiFi还是4G,登录信息如手机号,手机安装渠道。

启动方式之一:知乎、Quora让人手选感兴趣的话题。另外一种方式是给初始的歌曲或电影选择喜欢不喜欢。然后产生初始值,然而用户的行为数据都不足以产生高质量的推荐。

微博数据:通过对用户微博账号的分析建立兴趣图谱,通过对用户微博账号的分析建立一个“兴趣图谱”,即根据用户在微博上发布的内容及其所属类别、社交关系、社交行为、参与的群组、机型、使用时间、用户订阅的频道(电影段子商品)等来数据源来推断出用户的兴趣点有哪些。社交关系、社交行为即用户和用户之间的交流状况,可以根据二者间的共同好友数、相互评论熟、@数等来做度量。(想想新浪在怎么用)。借助社交平台,如微博的open api,结合微博上下文语义或关键词分析对用户进行标签分类,根据用户的feature属性进行初始化分类建模

用户标签形象,兴趣图谱:(一种今日头条的兴趣标签:移动互联网,HTML5,程序员,互联网,云计算,用户体验,创业,手机游戏,ios,CSDN,IT,Python,Android,数据挖掘,电子商务,技术管理,设计,游戏引擎,移动开发,项目管理,JavaScript,移动应用,移动应用开发,闷骚男型,MVP,web前端,用户研究,皮尔斯,nba,武汉,自然语言处理,百度,风险投资,浏览器,加内特,新媒体,geek,创业投资,java,软件开发,视觉设计,旅行,方大同,社交游戏,天蝎座,机器学习,交互设计,创新工场,数码控,网页游戏,动漫,文学,历史,天使投资,羽毛球,热火,足球,艺术,美剧)

点击查看、转发、存储为书签、页面停留时间、购买、评论,对行为附权。显式行为权值更高。

降噪:用户行为数据是用户在使用应用过程中产生的,它可能存在大量的噪音和用户的误操作,我们可以通过经典的数据挖掘算法过滤掉行为数据中的噪音,这样可以是我们的分析更加精确。

建立标签体系,树状结构,配上权重(-1~1)。

在用户每次操作后的30秒内,系统就会对用户模型进行更新。随着用户行为数据的积累,系统为每个用户建立的兴趣模型就越精确。

评估主动行为下,对于原有用户模型的影响,影响程度如何。

按照用户模型成熟程度做一次区分:冷启动用户、发展期用户、成熟期用户。针对不同阶段的用户,用不同的评价指标进行分析。

3、用户行为数据????待处理。怎么把内容与标签匹配。匹配算法使怎样的?

用户角度:用户单个点击行为,屏幕滑动停留时间,有业务联系的点击行为

内容角度:点击率,点击量

用户的正负反馈匹配精准。正反馈:包括用户点击了、看了很长时间、分享了、收藏了、评论了,都是正反馈。负反馈反而是比较难获取的,现在今日头条在内容上设置了一个小叉,点击之后,会咨询用户不感兴趣的理由,这种做法则会获取比较强的负反馈。但是通过这种方式收集到的数据还不多。

任何行为和业务都是可以追踪的。不同纬度的策略支持。具有真实的业务需求。频率个性化,内容个性化。

4、用户内容建立关系

比如:按照城市:朝阳发生的某个新闻事件,发给朝阳本地的用户。按照兴趣:比如京东收购一号店,发给互联网兴趣的用户。环境特征:推荐是一个情景化的事。比如我自己早上,会看一看科技新闻。周末晚上会看搞笑视频。还有网络环境,你要有wifi的话,给你多推视频。

a)推送去重,推荐信息注意需要消重。用户视角,看到两篇相同的标题或图片的文章,用户体验非常不好。内容消重,标题图片消重,相似主题消重。;b)人工方式审核过滤作为补充,不良内容直接处理掉,高质量内容赋予更大的权值;c)A/B Test;d)后端监控,对内容监控,过多举报直接删除,超出阈值的重点关注。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,332评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,508评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,812评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,607评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,728评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,919评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,071评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,802评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,256评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,576评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,712评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,389评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,032评论 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,798评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,026评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,473评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,606评论 2 350

推荐阅读更多精彩内容