rec sys - 业务

推荐系统的 fairness bias debias

1 population imbalance
用户不应因为自身的性别 年龄 种族而接受到不同的推荐结果 仅仅是出于政治正确和平台长期利益的考虑

2 multiside fairness
推荐系统不应只服务于用户 也要考虑到物品和平台自身的利益

3 position bias
位置靠前的物品比位置靠后的物品更容易受到用户的注意 从而使模型对用户偏好的感知出现偏差

4 exposure bias
用户看到的只是曝光出来的物品 未曝光或次数少的物品由于缺乏用户行为数据 更加得不到曝光机会 恶性循环

5 selection bias
用户看到的是推荐系统挑选出来的物品 而这个选择物品的过程并不是随机采样的 因而用户看到的物品的分布
和潜在的用户可能感兴趣的物品分布不一致。

6 algorithmic confounding bias
推荐算法训练数据的本身是受推荐算法自身的影响的 如果不考虑这一因素 推荐算法可能越推越窄

7 popularity bias
被推荐物品的全局热度会影响其排序 导致推荐系统可能向用户推荐热门而非相关的物品

参考自 https://zhuanlan.zhihu.com/p/163163906
里面也有各偏差下的解决方案。


内容分发
1 为了让内容更加高效传达给用户
2 为了让用户获取到更多元的信息
3 内容分发为内容生态提供了更多的用户行为数据,有助于内容供应商和内容需求方更加高效的对接。

内容的形式:
文字、 图片、 音频、 视频

常规分发渠道:
精准分发、 聚合分发、 关联分发、 热点分发、 个性化分发

内容分发的三个核心节点:
内容、 渠道、 用户


推荐系统的数据大致分为以下4类:
用户行为、 物品信息、 用户画像、 外部数据

做召回时,用深度学习模型的话,一般是基于 用户行为 的深度学习召回模型 可将其视为一个 包含数百万类的多分类模型
模型输入: 某一时刻用户的浏览序列
模型输出: 下一刻用户可能会浏览的内容

对比协同过滤,深度学习有以下的优势:
1 更全面的行为表达
2 可添加画像特征
3 考虑用户的行为顺序
4 组合复杂特征


以下 摘自知乎文章: https://zhuanlan.zhihu.com/p/100019681
推荐流程
召回-粗排-精排-重排

召回

有时候因为每个用户召回环节返回的物品数量还是太多,怕排序环节速度跟不上,所以可以在召回和精排之间加入一个粗排环节,通过少量用户和物品特征,简单模型,来对召回的结果进行粗略的排序,在保证一定精准的前提下,进一步减少往后传送的物品数量,粗排往往是可选的,可用可不同,跟场景有关。

目前,召回环节的有监督模型化以及一切Embedding化,这是两个相辅相成的总体发展趋势。
在embedding基础上的模型化召回 是个符合技术发展潮流的方向

传统的标准召回一般都是多路召回
可以这样理解,每一个用了单特征的单路召回 是用了 一个特征的 排序结果。
协同召回 这种可以看作 是只包含UID和ItemID的两个特征的排序结果

我们可以根据召回路 有无 用户个性化因素 来划分
一类是无个性化因素的召回路(比如热门文章) 另一类有有个性化因素的召回路(比如用户兴趣标签召回)

模型召回(可以理解为 多特征融合的召回模型,即对多个单方面的特征都进行了考虑 也就类似于多路召回了) 其实 可以理解为 跟多路召回是一个差不多的关系

此外 召回的方向 还有 用户行为序列召回 , 用户多兴趣拆分 , 知识图谱融合拆分 , 图神经网络模型召回

排序
是推荐系统 最关键 最有技术含量的 环节

可从三个角度看其发展:
1 模型优化目标:
List Wise
多目标优化

2 模型表达能力:
显示特征组合
特征抽取器优化
AutoML
增强学习

3 特征扩充及信息融合:
长短期兴趣分离
用户行为序列
图神经网络
多模态融合

重排

重排这个环节集中了 各种的 业务 和 技术策略 (比如 去除重复 结果打散 强插某种类型的推荐结果)
但是 从技术发展方向看 重排阶段上模型 来代替各种花样的业务策略 是个总体的大趋势


多目标排序

有多个目标函数 找到一种排序方法使得多个目标都达到整体最优。

为什么需要多目标排序:
推荐系统大多基于隐式反馈来推荐 这其中包括偏差。

目标偏差 : 例如购买比点击的表达更有效
物品偏差 : 例如标题党文章点击率高
用户偏差 : 例如有的人喜欢点赞,有的人喜欢收藏

多目标方排序问题的解决方案大概有四种:
1 改变样本权重
2 多模型分数融合
3 排序学习
4 多任务学习(multi-task learning 简称 MTL)


feed流 和 瀑布流 有什么区别?

首先,feed流和瀑布流本质上都是信息分发的方式。
区别点在于:
1 feed流“千人千面”,会针对用户的喜好,推送给用户喜欢的内容。例如抖音、淘宝、知乎。
2 瀑布流“一视同仁”,推送给所有用户的内容都是一致的。例如36氪公众号、得到。


内容生命周期
试投
加速
衰退
离场

试投:在这个阶段,会给物料一定的推荐量,通过实时计算,会得到这篇物料在第一批投放的人群中的数据指标,如果指标达到一定的值,就会进入下一个阶段--加速;如果指标不能满足,这篇物料基本上就不会有太多的推荐量了。

加速:在这个阶段由于物料有了基本数据的反馈确认,会进一步给该物料更多的推荐量,如果做过头条号的同学一定是能够感受到这样的推荐过程的。这个加速阶段有的是一波流,上来量放得太猛,导致推荐量猛增,试投阶段的数据指标一下就猛跌,这是我们曾经在运营过程遇到过的,后来在算法策略上逐渐优化,在数据指标和推荐量上达到一个较好的临界区间。

衰退:加速过后,物料都会迎来衰退期,但是对于不同的物料衰退的速度不一样,高时效性的物料来的快,去得也快,衰退期就会很短;但对于某些时效弱的物料,衰退的速度就会缓慢一些。比如一条全国油价上调的资讯,会很快的推给大部分用户,然后很快的就离场;而一篇教你怎么改装车的文章,则可能会持续一个月,甚至更长的时间,这种物料呢一开始在加速阶段推荐量可能没有那么多,但随着时间的积累,总的推荐量也很可观。所以这种对时间不敏感、优质的文章也是用户所喜欢的,这样的文章在点赞、评论、收藏这些互动数据指标上也有较好的表现。

离场:离场是什么意思呢,就是这篇物料不在进入推荐的候选集中,这样的物料后续再次被曝光的可能性很小,除非是搜索出来


push:消息推送(或者内容推送,视频推送)


1 如何评价机器学习做的好不好

本质是怎么量化 用户体验。一个好的评价标准,对于行业的发展至关重要,比如imageNet在图像上的效果。但很多工业界的应用,并不能像学术界一样,有单一明确的指标来量化。

现在大部分的推荐系统,核心指标都是点击率(视频类型的大概率是视频播放完成率)。点击率当然很重要,但直接等价与用户体验,谁都知道不合理。

尝试方案:
现阶段,比较落地的方案,是数据驱动,基于一套多粒度的数据指标,评价用户体验,也即是陈然提的:深入了解海量用户体验需要大量精细化的数据支撑。


2 如何可控的让机器学习做的更好。

技术的发展,总是会带来方法论的变化
如何可控的让机器学习做的更好。以我浅薄的见识来看,我们必须放弃不切实际的掌控感,调高自己的风险偏好,接受大部分工作是失败的,可以有效的缓解焦虑。

从方案来看,大概有两个方向。

第一是基于case分析法,一套推荐系统,比如会存在大量的badcase,大部分的badcase是由于模型本身带来的,短期很难解决。但也有不少可以帮助我们理解模型,发现优化点。所以,算法组同学必须重视看case和分析case。

第二是,是基于团队合作的假设验证法。机器学习应用的时候存在大量的不确定性,但不是说大家在乱试。刚起步的团队,follow业界主流线,再结合自身业务特点去解决问题。


短带长: 用户在看完 短视频 片段后会去寻找完整的长视频内容观看 我们称之为 短带长。
其实短带长 更多的是 短视频平台 经常考虑到的一个问题

长视频 与 短视频

长视频,其实做的是内容的生意
短视频,其实做的是流量的生意

长视频平台企图以长带短,以剧、综艺等长视频内容作为短视频的内容素材来源,
这样导致的结果,是短视频内容只能是剧情、花絮、明星、OST这几类围绕长视频主题的内容。


UGC: 用户生产内容(用户自由上传内容 参与度高 内容丰富)

PGC: 专业生产内容(专业分类化 内容精品化 大多传统媒体)

OGC: 品牌生产内容

三者其实是可以转化的
PGC其实可以理解为随着 专业化程度的加强,UGC变为PGC。

一般来说,UGC用户的参与度和粘性都要更高。
PGC算是在特定领域内的单方面信息输出。

PUGC: 集合了UGC, PGC的双重优势,有了UGC的广度,通过PGC产生的专业化的内容能够更好的吸引,沉淀用户。
就比如 在 喜马拉雅FM中,有韩寒,郭德纲的音频页,为平台创造内容。

看到一篇文章,论BiliBili 市值超过 爱奇艺 其实就是 UGC 和 PGC 的差别
链接见: https://www.zhihu.com/question/397623238/answer/1472852006


马太效应 也就是长尾效应

推荐的商品会集中在少部分商品中,而大部分的长尾商品是沉寂的,长此以往 会造成推荐疲劳。

挖掘长尾-更多的个性化-可通过适当的热度降权(前提是保证点击率的情况下)

或是 时间衰减,随着时间的迁移,其整体热度会不断的下降。


©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,837评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,551评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,417评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,448评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,524评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,554评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,569评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,316评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,766评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,077评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,240评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,912评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,560评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,176评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,425评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,114评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,114评论 2 352

推荐阅读更多精彩内容