Adapting User Preference to Online Feedback in Multi-round Conversational Recommendation

以下内容纯属个人见解，欢迎大家交流。
发布于2021 WSDM

1 motivation

1.1 问题

现有的CRS用户偏好模型通常将在线反馈信息作为独立的特征或训练实例，忽略了属性级和项目级反馈信号之间的关系。这种关系可以用于更精确地确定触发拒绝某个项目的原因(例如某些特定属性)，从而更细粒度地利用反馈信息。

在多轮CRS中利用这些在线反馈信息并不是微不足道的。EAR框架采用因子分解机(FM)作为推荐组件，将属性级反馈编码为输入特征，项目级反馈作为在线更新的训练实例。FM模型最初是在静态推荐设置下开发的，忽略了多轮CRS中收集的细粒度属性反馈和粗粒度项目级反馈之间的关系。物品级别的反馈很难使用，因为被拒绝的原因可能是不同的，这表明虽然RC通常会基于首选属性做出建议，但用户仍然可能拒绝这些物品。例如，对于消极的项目级别反馈“拒绝红色iPhone”，被拒绝的原因可能是属性“红色”，或者属性“苹果品牌”，或者两者兼有。直接使用反馈作为训练实例会降低与该物品相关的所有属性的亲和力得分。但是，如果用户表示“喜欢红色”(即“喜欢红色”)。(积极属性级反馈)，系统可以推断“Apple brand”可能是不受欢迎的属性。因此，利用项目级反馈和属性级反馈之间的关系可以更准确地估计用户偏好，有助于提高多轮CRS的性能。

1.2 解决方法

针对上述问题，本文提出了一种针对多轮CRS的偏好估计模型——反馈导向偏好适应网络(Feedback-guided preference Adaptation Network, FPAN)。在FPAN中，根据在线属性级反馈，设计了两个门禁模块，分别适应原始用户嵌入和项目级反馈。门控模块利用细粒度的属性级反馈来修正用户嵌入和粗粒度的项目级反馈，通过考虑反馈之间的关系来实现更准确的用户偏好估计。

FPAN首先将用户、项目和属性表示为异构图中的节点，然后应用图神经网络学习节点嵌入。为了获取项目级和属性反馈之间的关系，FPAN设计了一种门控模块，基于确定的正属性来修改被拒绝的项目的嵌入，获得用户当前不喜欢的特征的项目表示。类似地，另一个门控模块被设计用来根据确认的负面属性修改用户嵌入，根据用户当前的偏好特征导出用户表示。这些经过调整的用户项表示和对话中提到的属性的嵌入被进一步聚合，以估计用户对属性和项的偏好。

2 模型介绍

一个多轮CRS会话以用户指定的首选属性开始(步骤1)。在每个回合中，系统从{𝑎𝑠𝑘，𝑟𝑒𝑐𝑜𝑚𝑚𝑒𝑛𝑑}中选择一个动作(步骤2):ask表示系统询问用户是否喜欢给定的属性，用户以二进制反馈回复(步骤3); Recommend表示系统向用户推荐一个商品列表，用户检查该列表中是否包含目标商品(步骤3)。当用户接受建议或整个过程耗时太长时，会话结束(步骤4)。CRS主要由负责偏好估计的推荐组件(RC)和负责用户交互的会话组件(CC)组成

2.1 Offline Representation Learning

将用户-物品-属性建图，共有两类节点<用户，物品>，<物品，属性>。采用GraphSage来学习node embedding

2.2 Online User Preference Adaptation

对于当前会话，用户会有正属性，负属性和负样例。

2.2.1 Adapting item embedding to positive attribute feedback

用户通常会因为与该项相关的部分属性而拒绝推荐的项。直接使用I−𝑢中的消极项(例如，作为训练实例)可能会影响所有相关的属性，这不可避免地会损害推荐的性能，因为被拒绝的项与目标项也有一些相同的属性。幸运的是，我们可以通过项目级反馈与属性级反馈之间的关系来缓解上述问题。在之前的“红色iPhone”例子中，如果用户在之前的回合中明确表达了他对“红色”的偏好，那么“苹果品牌”属性可能会引发拒绝。

假设用户𝑢和对话历史中提供的积极属性反馈，这些属性的嵌入首先被聚合到一个向量中

对于每一个被拒绝的项目，应用一门控模块以适应其初始嵌入:

从直观上看，门模块根据正属性信号控制被拒绝项嵌入所传播的信息。最后，将经过调整的项嵌入进一步聚合到向量表示项目级的负信号。平均的聚合是使用

2.2.2 Adapting user embedding to negative attribute feedback

在多轮CRS中，用户在当前会话中的反馈只能反映用户当前的意图(即短期偏好)。用户的一般兴趣(即:另一方面，通常是从历史日志数据(即从日志中学习到的嵌入)中派生出来的。对于CRS来说，平衡用户的短期和长期偏好非常重要。
在多轮CRS中，可以利用用户对属性的负反馈来平衡用户的长期和短期偏好。例如，根据用户的历史活动，系统将“红色iPhone”作为他的一般兴趣。然而，如果用户在当前的对话中表示他不喜欢“苹果品牌”的属性，那么一般的兴趣应该调整为“红色手机”。基于观察，我们还提出将𝑢(表示为𝒆𝑢)的普遍兴趣调整为负属性级反馈，仍然基于门控机制。

2.3 Item and Attribute Prediction

我们通过聚合不同类型的反馈信号来得到用户的偏好表示

3 实验结果

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 216,402评论 6赞 499
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,377评论 3赞 392
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 162,483评论 0赞 353
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,165评论 1赞 292
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,176评论 6赞 388
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,146评论 1赞 297
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,032评论 3赞 417
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,896评论 0赞 274
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,311评论 1赞 310
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,536评论 2赞 332
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,696评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,413评论 5赞 343
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,008评论 3赞 325
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,659评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,815评论 1赞 269
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,698评论 2赞 368
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,592评论 2赞 353