文章名称
Bias and Debias in Recommender System: A Survey and Future Directions
核心要点
上一节讲述了7种bias中的4种,我们接着来看后3种。
方法细节
问题引入
除了数据收集的时候会产生selection bias,conformity bias,exposure bias和position bias以外。训练模型和结果展示的过程中,还会存在例如inductive bias,popularity bias以及unfairness。
inductive bias是指在模型训练过程中,为了更好地提升模型泛化能力或考虑实现其他目标而对(优化的)目标函数、样本权重、embedding表示的形式做的一系列假设。例如,在进行建模时,我们假设用户对物品的偏好是两者隐向量的内积,这是为了更好地泛化到没有实际交互过多用户-物品对而做的假设。又如,为了能够更快的进行检索或加速推荐,我们会假设用户和商品的隐向量是二进制向量,这也是一种inductive bias。为了加速模型学习的收敛,我们经常采用过采样难度较高的样本的trick,这也是一种inductive bias的表现形式,因为训练样本的分布和实际分布会存在差异(我们加权了某些训练难度较大的样本的权重)。然而,这里提到的inductive bias大多数是对模型训练或最终效果有益处的偏差。
而在模型造成的数据结果中存在两种不可忽视的重要的偏差,popularity bias以及unfairness。
popularity bias是指在推荐系统中存在数据长尾的问题,在长尾数据上学习的时候,模型会倾向于给流行度更高,或者被更多人交互的物品较高的得分,甚至高过了它本身应该有点频度,导致长尾物品能够获得的曝光机会更少。这个偏差是在一种循环往复的状态下体现的,比如,某个物品的流行度在第一天比较高,模型给了它更高的得分。第二天,这个物品进入正向的“吸分”循环,而其他物品则被赋予更低的得分。也就是我们常说的推荐系统存在马太效应。
unfairness则是指,数据中固有的诸如性别、种族等偏差,导致推荐系统更容易沿袭这种偏差。比如,在职位推荐的时候,由于原有数据收集时可能存在性别偏差,女性看到的职位的薪酬都比较低,导致模型可能学习到这种偏差,甚至加强这种偏差等。
7种类型的bias总结如下图。上述偏差最大的问题不仅仅在于其初期的影响,如popularity bias所述,整个偏差的影响是循序渐进的,逐渐被放大。当整个推荐过程不断地在这个循环放大的路径上渐进的话,很可能后续很难得到合理的数据来进行矫正。
心得体会
Matthew effect
马太效应是在分布不均的情况下逐渐加剧的。如果不进行矫正或特殊处理,我们会发现,个性化推荐的能力变弱,效果逐渐变差。而个人认为,这其实是透过exposure bias来放大影响的,其实也会影响到position bias,所以这个问题的可以说是其他问题的根源之一,幸存者偏差带来更大的偏差。