CTR预估演变-看不完系列

       最近系统学习了CTR预估的理论和实践,这几天复盘了整个技术路线,加深了对CTR预估的理解,也使得之前没有理解清楚的内容更加开朗起来。书读百遍其义自见,每一遍学习都有不同层次的理解。come on.

     全文36897字,篇幅颇大,我记录在语雀文档中,在文末原文链接可以阅读。

这里就简单做个总结

No Free Lunch法则,并不存在某个算法在任何场景下比另外一个好。任何事情都是由易到难,如果直接跳到难,那么做出来,这就是巨大的创新。这里创新的定义为在已有基础至少能够带来十倍的提升。可以看到每次技术革命,对人类社会带来的都是几十倍或者几百倍的生产效率的提升。十倍以下的都叫优化。整个社会的发展通过一步步优化也是能够达到那种境界,就是慢点白。所以遵循人类演变的过程,在迭代优化中前进。

      任何一家公司的技术路线都不是一开始就是成熟、完美的。那为何不直接进入Deep领域呢?在基线不强的时候,直接进入复杂模型的领域。倒不是说复杂模型难以掌握,而是团队对业务面对的具体问题的理解需要实战积累。而初期简单的模型,更容易暴露出问题是什么,将问题定义清楚,整个结果solid。

      最怕的是不知道问题是什么,而不是怎么做方案。在我们没有做到那个点之前,对问题的定义大多是有问题的,随着越做越深,对问题的理解也会越来越深。 

       比如说,在CTR领域内LR需要人工特征工程提高非线性能力,为了优化这个问题,我们从矩阵分解MF领域得到了灵感,暴力特征两两交互,设计了FM,更加灵活,MF模型是FM模型的特例,MF可以被认为是只有User ID 和Item ID这两个特征Fields的FM模型,MF将这两类特征通过矩阵分解,来达到将这两类特征embedding化表达的目的。而FM则可以看作是MF模型的进一步拓展,除了User ID和Item ID这两类特征外,很多其它类型的特征,都可以进一步融入FM模型里,它将所有这些特征转化为embedding低维向量表达,并计算任意两个特征embedding的内积,就是特征组合的权重。所以很明显FM模型更灵活,能适应更多场合的应用范围。

但是呢,特征交互的重要程度并不都是一样的,会有差别,因此,FFM丰富特征的表达能力,引入不同特征域;AFM引入注意力机制,计算不同特征交互的权重。DIN直接是将注意力机制与同领域特征求和之前进行结合。

      然而,这一切都是二阶特征交互,于是,依附于DNN高阶交叉特征能力的Embedding+MLP结构开始流行。

        Embedding层的改造+DNN进行高阶隐式学习,出现了以PNN、NFM为代表的product layer、bi-interaction layer等浅层改进,这一类模型都是对embedding层进行改造来提高模型在浅层表达,减轻后续DNN的学习负担。

         以W&D和DeepFM为代表的双路模型结构,将各个子模块算法的优势进行互补,例如DeepFM结合了FM的低阶交叉信息和DNN的高阶交叉信息学习能力。但特征交互却是隐式和element-wise的。

        于是,显式高阶特征交叉网络的提出,这一阶段以更复杂的网络方式来进行显式交叉特征的学习,例如DCN的CrossNet、xDeepFM的CIN、AutoInt的Multi-head Self-attention结构。

        阿里的DIN模型将用户的历史行为来表示用户的兴趣,并强调了用户兴趣的多样性和动态变化性,因此通过attention-based model来捕获和目标物品相关的兴趣。虽然DIN模型将用户的历史行为来表示兴趣,但

1)用户的兴趣是不断进化的,而DIN抽取的用户兴趣之间是独立无关联的,没有捕获到兴趣的动态进化性

2)通过用户的显式的行为来表达用户隐含的兴趣,这一准确性无法得到保证。

       基于以上两点,阿里提出了深度兴趣演化网络DIEN来CTR预估的性能。DIEN模型的主要贡献点在于:

1)模型关注电商系统中兴趣演化的过程,并提出了新的网络结果来建模兴趣进化的过程,这个模型能够更精确的表达用户兴趣,同时带来更高的CTR预估准确率。

2)设计了兴趣抽取层,并通过计算一个辅助loss,来提升兴趣表达的准确性。

3)设计了兴趣进化层,来更加准确的表达用户兴趣的动态变化性。

考虑到CTR和CVR密切相关,将焦点转向CVR的预估,来看一下阿里提出的完整空间多任务模型ESMM是如何处理CVR预估中存在的样本选择偏差(sample selection bias)和数据稀疏(data sparsity)问题的。

       ESMM模型的特别之处在于额外关注了任务的Label域信息,通过展现>点击>购买所构成的行为链,巧妙地构建了multi-target概率连乘通路。传统MTL中多个task大都是隐式地共享信息、任务本身独立建模,ESMM细腻地捕捉了契合领域问题的任务间显式关系,从feature到label全面利用起来。这个角度对互联网行为建模是一个较有效的模式。

但是对于CVR预估来说,ESMM模型仍然面临一定的样本稀疏问题,毕竟从点击到购买的样本非常少。但挖掘用户行为,发现用户在购买前往往会有其他的行为,比如把想要购买的物品加入购物车或者心愿单。

        加入心愿单/购物车的数据相较购买数据还是比较多的,因此可以基于这部分数据,通过多任务学习模型来求解CVR模型。文中把加入购物车或者心愿单此类行为称作Deterministic Action (DAction) ,而其他对购买相关性不是很大的行为称作Other Action(OAction) 。

       此时原来的 Impression→Click→Buy过程变成了更加丰富的Impression→Click→DAction/OAction→Buy过程。

       可以看出阿里对解决问题的极致感,细分问题,一步一步拆开,汇合解决问题。这种转化建模思路值得我们学习。

        从整个宏观趋势来看,每一阶段新算法的提出都是在不断去提升模型的表达能力,从二阶交叉,到高阶隐式交叉,再到如今的高阶显示交叉,模型对于原始信息的学习方式越来越复杂的同时,也越来越准确。

        从整个历程可以看出,模型的前进离不开数据和业务,模型从业务中启发,服务业务中去。复杂的问题简单做,简单做的问题重复做,重复做的问题用心做,一定会有所突破。

 总结:由于数据量基本满足了,这些模型都为了提高“信息利用率”,因为。自动组合发现高阶非线性特征(最多无限逼近上限),但是感觉这是个无底洞。另外,具备业务知识的优秀特征工程依旧和模型能够并存,丰富特征表达能力,以便模型学习知识。当然,这些知识我们也可以转化为模型,那就是进一步优化,这是敏捷的,而不是瀑布式

      大概就是人们常说的经验吧,没有办法一口吃成胖子。所以我们踏踏实实一步一步来,先让代码跑起来,然后在迭代优化,知其然,而知其所以然。在阅读中提高认知,在实践中突破我们的认知。


欢迎大家到微信和我交流

该二维码也可以直达文章地址,或者文末原文链接,都可以哦! 好了,Peace!

CTR预估演变

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,884评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,347评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,435评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,509评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,611评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,837评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,987评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,730评论 0 267
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,194评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,525评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,664评论 1 340
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,334评论 4 330
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,944评论 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,764评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,997评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,389评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,554评论 2 349