今日头条推荐机制大揭秘之课程1笔记

1.推荐原理解析

推荐系统的本质:是从一个巨大的内容池里(涵盖上百万文章、图片、小视频、问答等体裁),依据内容、用户以及用户对内容感兴趣的程度三个要素,给当前用户匹配出最感兴趣的几篇文章。

1.1系统如何理解创作内容?平台依托于关键词识别技术做内容刻画。先提取出文章中的关键词(高频词规则、独特性规则),然后根据关键词,将内容进行粗分类,然后根据细分领域的关键词,对分类进行细化。(注:在标题中最好露出具有代表性的名词、代词等实体词的全程,虚词、转折词、非常规词、缩写或外号不会被统计。)

1.2系统如何理解用户需求?平台刻画用户三大类特征/标签:①用户的基本信息,比如年龄、性别、地域等;②用户的行为分析,比如他订阅的账号、历史浏览的文章以及他关注的话题等;③最后系统会根据用户的信息和行为进行分析计算,计算用户喜好的分类、话题、人物等其他信息。

1.3系统如何精准地将内容推荐给兴趣用户?依据推荐算法,即利用文章的特征、用户喜好特征以及环境因素,拟合一个用户对内容满意度的函数。它会估算用户对每一篇文章的点击概率,然后从巨大的内容池里,将所有的文章按照兴趣由高到低的排序。前十名的文章会在此时脱颖而出,被推荐到用户的手机上进行展现。

[if !supportLists]2. [endif]一篇文章在推荐系统里的生命周期内推荐历程

2.1初审:文章撰写完成后,先进入内容审核流程(初审)。机器模型会优先判断它的风险级别,判断有无违反国家相关法律的风险,然后根据风险级别将内容分发给不同的审核人员进行处理,在机器和人工的共同配合下,内容会以非常快的速度通过初审,从而立即展现在读者的面前。

2.2“冷启动”:这是相较于已经火起来文章的推荐性概念,就是新的文章在发表之后,去如何获取最初始几千个展现。初审结束后,平台会进行一些加权推荐,将这些篇文章首先暴漏给几千个用户。基于这几千次的用户点击、分享、点赞,平台就可以判断,哪些人群会喜欢这篇文章,哪些人群绝对不会喜欢。当文章在几千次展现之后平台就会认为已经给足了冷启动的机会,就会撤销对这一篇文章的加权,这个文章后续能不能再被推出来,就靠这篇文章本身的创作实力了。

2.3正常推荐:通过了“冷启动”的文章,平台会搜集到最基础的推荐效果。如果一篇文章推荐效果很好,系统就会认为这篇文章是有潜质的,会进一步扩量推荐给更多的用户,可能是一万个三万个五万个,甚至更多。如果一篇文章的用户阅读兴趣不是特别大,系统就会收紧推荐,继续观察文章的表现。

2.4复审:在正常推荐过程,基于各种各样的用户行为,系统会监测到很多数据上的异常,比如一些文章的点击率特别高,但与此同时负面评论与举报又特别多的现象,这时这篇文章会再次进入审核流程,平台称之为“复审”。复审会直接影响推荐文章的后续推荐。

2.5继续/停止推荐:在复审中,如果平台发现存在标题党、封面党、低俗、虚假等问题,系统就会停止这一篇文章的推荐。如无,在继续推荐。

[if !supportLists]3. [endif]推荐过程中常见问题

·为什么推荐流程“不稳定”?可能是因为你不知道以下这几个原因:

一是系统对文章的消重策略。为了保护站内的原创内容,提升用户的阅读体验,多篇相似文章中,平台会优先推送其中的原创文章。第二是同类文章的挤压。针对同一个热点内容,头条的推荐系统会从中选取一篇最适合的推送给用户。如果你也写了一个相似的内容,但是其他的文章表现的特别好,你的文章就有可能不会得到很好的推荐。也就是说,每一篇文章的推荐量既取决于当时具体的环境,也取决于当时整个内容池里面其他文章的表现,那么一篇文章的推荐效果,和这篇文章本身质量,也会有很大的相关性。

·究竟怎么做才可以避免消重呢?

答:首先第一个是坚持优质的原创,不做低质内容的无用功。头条整体对于低质内容的识别手段和打压手段正在不断进化,低质内容的生存空间必将越来越窄。第二大家面对热点内容的时候,谨慎地去追逐。第三,大家撰写的文章可以带有鲜明的个人特色。


·为什我的推荐效果不好?

答:如果一篇文章推荐不好,很有可能是以下几个原因导致的:首先,可能是作者的创作内容质量不稳定,系统会对作者的创作能力进行评估。如果文章的质量不稳定,就会导致无法很好的评估作者的创作能力,进而影响这篇文章的最终推荐效果。第二就是创作的内容不够垂直,平台会判断一个作者的专业度,并优先推送专业度高的作者的文章。如果作者经常换创作领域的话,就会导致他的专业度较难被评估,进而影响推荐。第三就是创作的内容受众较少,如果你的文章是某个小众领域,目标人群是有限的,例如动漫类的文章,头条喜欢动漫的人只有这么多,推荐系统把这些人群推荐完了,后面就没有办法推荐给其他人了。最后就是内容时效短,比如报道体育类赛事的进展,可能1小时后比分就会有较大的变化,那这种情况下就不会继续再推送这个内容了。

·我这个文章推荐了一半,展现量都很好,为什么忽然就不推荐了呢?

答:很有可能是因为文章出现了一些指标上的问题。比如它的点击率高得吓人,但负面评论也多得吓人,在这种情况下,文章或视频就会进入复审流程,在复审中,平台就会对文章的质量进行严格的审核,主要的问题大概会有四类:第一是标题党,如果标题过度夸张,故意营造悬念、无中生有、歪曲事实、题文不符、低俗引导等,都会被认为是标题党,而无法通过审核。第二是封面党或者低俗,如果封面不清晰涉及低俗引导的行为,都会被复审拦截。那三种就是文章会涉及虚假,如果一个文章违背科学常理,描述未被证实,或与已发生事实相背,就会被认为是一篇虚假的内容。比如,《<战狼3>演员名单流出,天王华仔愿意零片酬参演,阵容激动人心》,华仔并没有出演,这篇文章与事实明显相悖,就一定无法通过复审。第四种包含推广信息,为了保证用户的体验和权益,避免用户受到错误引导遭受损失,平台会对文章的推广信息有非常严格的控制,如果文章中包含二维码、手机号、微信号等各种联系方式,或者包含一些恶意推广的内容,比如违规医疗、违规财经等信息,都有可能被平台审核拦截。当然了其它的因素,也会影响平台的推荐效果,比如冷启动的推荐效果差,在冷启动阶段,文章的点击率比较低,系统就会认为文章不适合推荐给其他的用户,就会减少接下来的推荐量。此外在冷启动阶段,文章会被优先推荐给粉丝,那么粉丝的数量质量以及对文章的喜好度都会影响文章的推荐效果,此外文章还会受到外部的影响。如果当前的热点已经过时,那么对应的受众就会减少,文章推荐自然会受到影响,以上呢就是在推荐中常见的一些问题。

说明:本文来源于今日头条的公开课第一课《机器如何读懂你的内容?今日头条推荐机制大揭秘》,纯粹是简要版课程笔记。


©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,294评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,780评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,001评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,593评论 1 289
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,687评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,679评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,667评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,426评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,872评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,180评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,346评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,019评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,658评论 3 323
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,268评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,495评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,275评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,207评论 2 352

推荐阅读更多精彩内容

  • #头条公开课# 今日头条推荐机制大揭秘 为什么你的内容推荐不好?为什么你的流量总是不确定?为什么你的文章推荐到一半...
    A文思语阅读 7,986评论 0 8
  • 今天,算法分发已经是信息平台、搜索引擎、浏览器、社交软件等几乎所有软件的标配,但同时,算法也开始面临质疑、挑战和误...
    流浪java阅读 3,523评论 0 17
  • 叮铃铃……上课了,远方踢足球的少年匆匆忙忙地跑回教室,似乎是害怕他们的老班又唠叨他们整天无所事事。我快速...
    何其君阅读 504评论 0 2
  • 前面我们介绍了函数模板。今天我们来看看C++的另一种泛型:类模板。C++中类模板通常是容器(如std::vecto...
    许了阅读 4,127评论 0 3
  • 忘记吧,不要记恨,微笑吧,至死方休,勇敢,勇敢,努力,不管你现在有多不好多绝望,但是你要有勇气去面对,苦难,绝望,...
    子夜歌V阅读 132评论 0 0