因果推断推荐系统工具箱 - Bias and Debias in Recommender System: A Survey and Future Directions(一)

文章名称

Bias and Debias in Recommender System: A Survey and Future Directions

核心要点

当前有很多拟合用户行为数据的推荐模型被提出,然而这些行为数据是观测数据而非实验数据,因此存在很多的偏差,比如说选择性偏差,位置偏差,曝光偏差,流行度偏差等等。如果盲目拟合观测到的用户行为数据,会造成离线效果和线上效果存在较大偏差,并且伤害用户体验。所以,我们需要估量偏差对整个系统的影响,并且适时的纠正这些偏差,才能使得模型更具可信度,获得更好的效果。作者在文章中列出来7中不同类型的偏差,并且介绍了不同偏差的特点以及可行的解决办法。

方法细节

问题引入

推荐系统的模型训练经历了一个user→data→model→user的循环。其中,操作系统收集用户的1)隐式反馈包括点击,观看等,同时,也是收集用户的2)显示反馈,如用户的打分(以此来估计用户的偏好)。


feedback loop

在整个循环的过程中,会引入7中偏差(biases)。作者将用户交互到数据收集这个阶段的bias分为4组,其中包括显示反馈中会出现的selection bias,conformity bias以及隐式反馈中会出现的exposure bias,position bias。
在显示打分(用户反馈数值的分值,表示喜欢或者不喜欢)里,

  • 首先,这里的selection bias是指用户在反馈打分时,是可以自由选择给哪些物品打分的。研究表明,用户更倾向于给自己喜欢的物品打分,并且会给极端好或者极端差的打分。那么用户没有选择去评分的商品,就产生了缺失数据,也就是我们通常说的数据缺失并非随机的(MNAR)。这样我们得到的打分的分布和用户被分配随机物品打分的分布是不一致的。
  • 其次,conformity bias是指用户的打分通常会受到其他人打分的影响。比如,用户很可能受到朋友的影响而给每个物品打高分或者低分。甚至,用户看到其他无关的打分次数越多,也会倾向于和这些无关人的打分趋同(从众心理)。
    而在隐式反馈中,用户只给出了一些正向信号(其实也有负向信号),导致可能存在无法区分以下偏差,
  • exposure bias是指在物品数量较多的时候,当前展示给用户的物品是受到当前策略(当前推荐系统)的影响的,被曝光的物品没有得到正向的交互可以用来判断用户的偏好。然而,没有被曝光的物品的是不可能得到正向反馈的。因此,在未被曝光的物品上,存在非正向反馈的歧义。要么用户真的不喜欢,要么用户只要看到就喜欢。这种偏差导致真正喜欢的物品被忽略。同时,这种偏差也和用户的探索能力(selection)和周边人群的影响(exposure,朋友可能给这个用户看这个物品,甚至推荐系统挖掘“你的朋友也在看”的时候就会造成偏差)。因此,有些文献也会说成是selection bias。
  • position bias是指在结果以列表展示时,用户更倾向于与排名靠前的结果进行交互,很少甚至完全不与排名低的结果交互。这种不交互,并不能代表排名低的结果就和用户的问题(搜索场景)或用户喜欢的内容(推荐场景,也算是一种模型造成的selection)无关。position bias影响了模型的训练和测试环节。

今天就先介绍到这里,下节继续介绍其他biases。

心得体会

position bias

除了推荐模型本身只能选择一个结果造成排序偏差以外,其他处于商业化等目标的排序规则,比如竞价排名也会影响排序的结果。如果用这种排序结果认为是模型为了最大化如使用时长而得到的结果,就会造成位置偏差。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,734评论 6 505
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,931评论 3 394
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,133评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,532评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,585评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,462评论 1 302
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,262评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,153评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,587评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,792评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,919评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,635评论 5 345
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,237评论 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,855评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,983评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,048评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,864评论 2 354

推荐阅读更多精彩内容