因果推断推荐系统工具箱 - CASR(一)

文章名称

【SIGIR-2021】【Beijing Key Laboratory of Big Data Management and Analysis Methods】Counterfactual Data-Augmented Sequential Recommendation

核心要点

文章旨在利用反事实数据生成的方法,解决Session-Based推荐场景下数据稀疏限制模型性能的问题。作者提出CASR框架,包含3种增广序列生成的sampler model,以及传统的序列推荐模型anchor model用于生成最终的推荐列表。Sampler model是整个框架的关键,其中一种是简单的随机替换模型,另外两种是面向数据和面向模型的序列生成模型。面向数据的模型会生成处在决策边界附近的反事实序列,而面向模型的方法则会以最大化提供给anchor model的信息为目标生成反事实序列。

方法细节

问题引入

基于用户行为序列推荐模型在各种推荐场景都取得了一定的成功,此类模型的本质是学习到两个或者多个物品在用户行为序列中共同出现的联合分布,并以此作为推断依据,为用户推荐下一个物品。因此,高质量的行为序列(训练数据)对基于序列的推荐模型尤为重要。然而,行为序列往往是稀疏的。如下图所示,用户按顺序购买了相机,电池和充电器,这条行为被记录了下来,但存在许多其他(可能的)合理的行为序列并没有被记录下来(只是没有被观测到,但其实是可能发生的)。例如,用户可能按顺序购买相机、支架、交卷和相册等。这些没有被观测到的、有用的行为序列被作者称为反事实行为序列,利用这些行为序列,想要回答的问题是:如果用户行为发生变化,那么他/她会买什么?这是典型的模拟人的推理方式的方法,通过折后在那个模拟可以帮助模型学习更多有用信息,提升性能。

An illustration of framework for CASR

具体做法

首先,形式化序列推荐的问题,

  • 用户集合为\mathcal{U} = \{ u_1, u_2, ..., u_{N} \},物品集合为\mathcal{I} = \{t_1, t_2, ..., t_{M}\}
  • 对用户u的推荐结果为rec,其反事实推荐结果为rec^*,表示修改用户行为后,可以被替换的物品;
  • 用户u_i的历史行为集合记作\mathcal{T} = \{ (\{ u_i, t_i^1, ..., t_i^{l_i} \}, t_i^{l_i+1}) \}_{i=1}^{N} = \{ \textbf{T}_i, t_i^{l_i+1}\}_{i=1}^{N},其中t_i^k表示用户在k时刻交互的物品;
  • 序列推荐模型的目标是基于\{ \mathcal{ U }, \mathcal{I}, \mathcal{T} \}(所有训练数据),准确预测每一个用户的下一个物品\{ t_i^{l_i+1}\}_{i=1}^{N}(以及用户未来的偏好);
  • 序列推荐模型可以用\mathcal{ A}表示。通常通过优化如下目标,来得到模型参数。在大规模物品集合的场景下,一般采用负采样或sample softmax的方法减少计算复杂度,其中,\mathcal{T}^- = \{ (\{ u_i, t_i^1, ..., t_i^{l_i} \}, t_i^{l_i+1}) \}_{i=1}^{N}为负采样的行为序列,若t_i^{l_i+1}出现在用户历史行为中,则y_i为1,否则为0。
    crossentropy loss

从上图也可以看出,CASR框架分为2个重要部分,

  • Sampler model。用于生成反事实序列。
  • Anchor model。用于产生出推荐结果。

如上所述,其中核心是sampler model。作者提出了3种sampler model。

Heuristic Sampler

作者提出基于启发的sampler model作为基线,其基本步骤是,

  • 随机采样物品t^a,替换用户行为序列中的某个物品,目标物品t^d(这里ad分别表示替换的物品和行为序列物品(的标号),稍微有点歧义的是,a不是个标号,而d是原始序列的标号);
  • 利用sampler model寻找物品使得似然最大,即选择满足如下图所示条件的最优物品\hat{t}^{l+1}
    Heuristic Sampler Loss

这样的方法显然太简单的,随机采样给了太多的自由度,带来了太多的随机性。并且[6, 7, 29]的研究表示,不同的样本对模型优化而言,应该具有不同的重要性。因此,需要更合理的sampler model。

本节介绍了,文章需要解决的额问题背景,方法框架以及简单的sampler model。下节继续介绍更合理的sampler model以及anchor model。

心得体会

Heuristic Sampler

个人感觉,Heuristic Sampler有点悖论,既然sampler model可以做到最大似然,那么anchor模型和sampler model的本质区别就比较小。并且,作者提到两个模型都是利用原始的dataset进行预训练的,区别就更小了。

文章引用

[1] Tsu-Jui Fu, Xin Eric Wang, Matthew F Peterson, Scott T Grafton, Miguel P Eckstein, and William Yang Wang. 2020. Counterfactual Vision-and-Language Navigation via Adversarial Path Sampler. In European Conference on Computer Vision. Springer, 71–86.

[2] Hongchang Gao and Heng Huang. 2018. Self-paced network embedding. In Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 1406–1415.

[29] JunWang,LantaoYu,WeinanZhang,YuGong,YinghuiXu,BenyouWang,Peng Zhang, and Dell Zhang. 2017. Irgan: A minimax game for unifying generative and discriminative information retrieval models. In Proceedings of the 40th In- ternational ACM SIGIR conference on Research and Development in Information Retrieval. 515–524.

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
禁止转载,如需转载请通过简信或评论联系作者。
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,919评论 6 502
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,567评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,316评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,294评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,318评论 6 390
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,245评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,120评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,964评论 0 275
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,376评论 1 313
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,592评论 2 333
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,764评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,460评论 5 344
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,070评论 3 327
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,697评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,846评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,819评论 2 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,665评论 2 354

推荐阅读更多精彩内容