Loop Effect Debias

1. 背景

推荐系统通常存在诸如位置偏差、曝光偏差、选择偏差、热度偏差等多种偏差(Bias),由于用户只能在推荐系统曝光的内容上产生行为,因此用户行为数据会同时被系统的曝光机制和用户的真正自我选择所影响。两种因素的混淆影响使得系统用于训练的数据本质上是观测性的,而非真正实验性的。而用户的行为数据作为推荐系统的基石,受曝光机制影响,又反过来作为训练数据决定曝光,这样的反馈循环(Loop Effect)使得系统偏差随着时间推移不断加剧,从而产生“信息茧房”等一系列推荐链路的系统性问题。因此,本文对推荐链路反馈造成系统偏差(下文简称回路偏差)的缓解方案进行调研。

2. 方案调研

消除推荐系统回路偏差的方法主要分为两类:一类使用随机策略干预系统,从而获得无偏分布下的数据。该方法的优点是高效直接,但会损害用户体验和系统收益。另一类使用强化学习,以长期指标为收益对系统施加强化学习的策略。该方法的优点是能够适应性地实现系统探索和利用的平衡,缺点是难以训练和离线评估。因此,下文主要阐述随机策略干预的相关方案。

随机策略干预的方案使用随机策略以均匀分布对内容排名,打破反馈循环获得无偏数据。由于随机策略不可避免地会损害用户体验和平台收入,它通常仅限于在线流量的一小部分。因此,如何用极少的无偏数据纠正系统偏差是该方案研究中的关键问题。解决这一问题的方案主要分为以下几类:

  1. 因果推断

高校&华为诺亚:
主要基于潜在结果模型(RCM)流派的IPS方法和Doubly Robust方法进行纠偏。例如,Yuan利用无偏数据学习一个反事实模型,然后利用该模型对曝光内容的标签和未曝光内容进行纠偏。


image.png

快手:
https://www.esensoft.com/industry-news/dx-6237.html

快手相关的一些因果推断用的工作比较多

我们在类似positionbias,esmm建模上尝试过类似因果推断的方案,未拿到收益

快手在热门打压上的工作可以作为参考

  1. 引入正则项约束

Criteo AI Labs:

Bonner基于矩阵分解算法,分别学习大规模的有偏差的曝光反馈数据和小流量的无偏曝光反馈数据,并增加正则项减小拟合有偏数据的表征与拟合无偏数据对应表征之间的差异。

  1. 知识蒸馏

高校&华为诺亚

Liu提出利用知识蒸馏从无偏数据中提取信息学习一个无偏的推荐模型。Teacher模型使用无偏数据集,从特征表征、模型隐层表征和soft标签上蒸馏Student模型。

  1. 元学习Meta-Learning

高校(何向南)&阿里

提出了利用元学习实现从无偏数据自动学习最佳去偏配置的方法。

方法核心是有两个数据集和两个模型,其中D_T是有偏的数据集,D_U是通过随机流量收集到的无偏数据集,两个模型meta_model和ing_model。

训练方式:首先用meta_model0初始化ing_model,在训练集D_T上迭代到ing_model1,然后计算ing_moede1在无偏数据集D_U上的loss,通过这个loss来反向传播优化Meta_model0到meta_model1。逐渐这样迭代,保证学习到的模型meta_model在随机流量生成的无偏数据集上的loss也很低,这样就实现了自动去偏的最佳配置。

image.png

除了聚焦于如何利用少量无偏数据纠正系统偏差这一问题,也有部分论文基于随机流量获得的无偏数据对推荐系统用户的回路反馈进行理论分析。例如,Google DeepMind的Degenerate Feedback Loops in Recommender Systems一文,通过动态系统框架建模推荐系统用户兴趣的变化,分析了模型精度、系统探索量和内容候选池增长率三个因素对推荐系统退化的影响,分析结论认为缓解系统退化的最佳措施是持续地进行随机探索和保持内容候选池至少线性增长的增长速率。

具体的做法上,首先他们使用动态系统模型对用户的兴趣演化进行数学建模,为考虑推荐系统的回路反馈效应,模型中用户t+1时刻的兴趣不仅依赖于t时刻的用户兴趣,还取决于之前t时刻系统的推荐内容及行为。其次,文章给出了对于推荐系统用户兴趣退化现象的数学定义,将用户兴趣退化定义为有限内容集合的推荐系统中用户对各内容t时刻兴趣相比初始兴趣差值的二范数的上确界趋于无穷。基于上述数学模型和用户兴趣退化的定义,文章对随机流量、采用汤普森采样和UCB探索策略的系统和无探索的推荐系统分别评估模型精度、系统探索比例和内容候选池增长速率三个因素对推荐系统用户兴趣退化速度的影响。

业界对标

抖音:了解到在做uplift模型相关的实验时,会开小部分随机流量进行探索。

xhs: 暂时了解没有随机流量探索的机制,有兴趣探索坑位,占比在个位数。

其他:

兴趣探索/热度debias相关

https://zhuanlan.zhihu.com/p/625133327

https://zhuanlan.zhihu.com/p/660102638

https://mp.weixin.qq.com/s/ZgGbctgV3WsnnqQ0nsDn5w

参考文献

[1] Bowen Yuan, Jui-Yang Hsia, Meng-Yuan Yang, Hong Zhu, Chih-Yao Chang, Zhenhua Dong, and Chih-Jen Lin. 2019. Improving ad click prediction by considering non-displayed events. In CIKM. 329–338.

[2] Stephen Bonner and Flavian Vasile. 2018. Causal embeddings for recommendation. In RecSys. 104–112.

[3] Dugang Liu, Pengxiang Cheng, Zhenhua Dong, Xiuqiang He, Weike Pan, and Zhong Ming. 2020. A General Knowledge Distillation Framework for Counterfactual Recommendation via Uniform Data. In SIGIR. 831–840.

[4] Jiawei Chen, Hande Dong, Yang Qiu, Xiangnan He, Xin Xin, Liang Chen, Guli Lin, and Keping Yang. 2021. AutoDebias: Learning to Debias for Recommendation.

[5]Ray Jiang, Silvia Chiappa, Tor Lattimore, András György, and Pushmeet Kohli. 2019. Degenerate feedback loops in recommender systems. In Proceedings of the 2019 AAAI/ACM Conference on AI, Ethics, and Society. 383–390

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容