在一致表示空间内简单有效的基于会话的推荐

发表于：SIGIR(2022)

摘要：基于会话的推荐(SBR)是指根据一个匿名会话中的短期用户行为预测下一个条目的任务。然而，非线性编码器学习的会话嵌入通常与项目嵌入不在同一个表示空间中，导致项目推荐时预测不一致的问题。为了解决这个问题，我们提出了一个简单有效的框架CORE，它可以统一编码和解码过程的表示空间。首先，我们设计了一个表示一致的编码器，该编码器将输入项嵌入的线性组合作为会话嵌入，保证会话和条目在相同的表示空间中。此外，我们提出了一种鲁棒的距离测量方法，以防止在一致表示空间内的嵌入过拟合。在五个公开的真实数据集上进行的大量实验证明了所提方法的有效性和效率。

1 INTRODUCTION

目前的SBR方法通常遵循编码器-解码器的框架，重点是设计有效的神经结构作为编码器，如递归神经网络(RNN)，变压器和图神经网络(GNN)。在解码器中，广泛采用的方法是计算会话嵌入和项嵌入的点积作为下一项的交互概率。

当前存在的问题：我们注意到会话嵌入通常与项嵌入不在同一个表示空间中。一般来说，短会话中的用户行为倾向于共享一个共同的焦点。在基于会话的推荐中，会话嵌入应反映用户的短期偏好，并应类似于首选项的嵌入。但是，如图1(a)所示，当项目嵌入采用非线性神经网络编码时，所产生的会话嵌入并不一定属于项目嵌入基所跨越的空间，因此可能无法简明地表示用户的偏好。例如,如图1所示(b),与一个共同的目标(项目a点击多次模拟),我们观察到他们的嵌入,由非线性编码器编码(例如,GRU4Rec)分为不同的点在嵌入空间中,给项目嵌入的不一致的预测在计算相似之处。

作者提出：为此，我们提出了一个相当简单而有效的基于会话的推荐框架，其中会话嵌入和项嵌入在一致表示空间，即CORE中。首先，我们将会话嵌入编码为会话内项目嵌入的线性组合，确保编码后的嵌入具有与项目嵌入一致的表示空间。通过深度非线性神经网络来学习会话中每个项目的权重，以纳入各种归纳偏见，如项目的顺序和重要性。其次，我们从优化元组损耗的角度重新审视了目前广泛采用的点积距离测量方法，从多个方面提高了距离测量的鲁棒性（是指一个计算机系统在执行过程中处理错误，以及算法在遭遇输入、运算等异常时继续正常运行的能力）。

2 方法

典型的SBR结构：首先，每一项嵌入到一个统一的嵌入空间。 $h_{i} =Emb(v_{i} )\in R^d$ 表示为 $v_{i}$ 的项嵌入， $h_{s} =Encoder([h_{s,1},...,h_{s,n} ])\in R^d$ 编码会话s的n个项，Encoder( $\cdot$ )通常是非线性神经网络。最后，用 $\hat{y}=Decoder(h_{s} ) \in R^m$ 预测分配的下一项的可能性，m为所有项的数量。

作者提出的方法：

Representation-Consistent Encoding：

我们的目标是将session编码到项嵌入空间中，以克服表示空间不一致的问题。由于大多数现有的编码器采用非线性编码器(例如，rnn或transformer)直接堆叠在输入项嵌入上，编码的会话嵌入与项不在同一个表示空间中。为了使嵌入保持在相同的空间内，一个自然的想法是我们是否可以去除项目嵌入中的非线性激活函数，并将会话编码为项目嵌入的线性组合。

为此，我们提出了一种表示一致性编码器(RCE)，其输出会话嵌入是会话中项目嵌入的加权和（公式2）。线性组合保证了会话嵌入始终处于与项相同的嵌入空间中。虽然在编码会话嵌入和输入项嵌入之间去除了非线性层，但它们对于引入归纳偏差和输入项嵌入的学习权重至关重要。形式上，我们使用任意深度神经网络（DNN）来学习会话中每个嵌入项目的权重： $\alpha =DNN([h_{s,1};h_{s,2};...;h_{s,n} ]) (1)$ $h_{s} = \sum_{i=1}^n \alpha _{i} h_{s,i} (2)$

给出两种DNN：

Learning Weights via Mean Pooling：变体中忽略了session中项目的顺序和每个项的重要性，采用平均池化层作为DNN，如 $\alpha _{i} =\frac{1}{n}$

Learning Weights via Transformer：使用L层自注意块如SASRec作为DNN。 $F=Transformers([h_{s,1};h_{s,2};...;h_{s,n}]) (3)$ ，其中F∈ R𝑛×𝑑',𝑑'为最后一层自注意块的前馈网络的输出维数。之后获得归一化权重 $\alpha \in R^n$ ， $\alpha =softmax(w\cdot F^T ) (4)$ ,w为可学习的参数。该变体通过Transformer中的位置编码技术捕获序列特性。

Robust Distance Measuring for Decoding：

由于会话编码为项嵌入的线性组合，并通过测量嵌入空间中与项之间的距离进行解码，因此项嵌入直接参与了嵌入之间的距离计算，存在过拟合的风险。因此，我们寻求一种稳健的方法来测量统一表示空间中的距离，以防止过拟合。通过回顾被广泛采用的点积距离，我们得到以下引理:

给定一个会话嵌入 $h_{s}$ 和项嵌入 $\left\{ h_{v}\vert v\in V \right\}$ ,当用点积来测量嵌入距离时，交叉熵损失与固定边距为2的(N-1)-tuplet近似成正比。

m定义为项目数，

v^+

定义为session下一项的真实值

从三个方面考虑提高距离测量的鲁棒性。首先，不同推荐场景下的数据分布可能差异很大，固定的边际值是不合适的，因此我们用可控的超参数 $\tau$ 代替固定边距2以适应不同的场景。第二，我们采用Dropout，一种广泛采用的鲁棒训练技术，直接用于候选项嵌入。第三，受对比学习的最新进展的启发，我们建议通过余弦距离来测量距离，以更好地对齐和均匀性的项目嵌入。然后，我们利用提出的鲁棒距离测量(RDM)技术设计了损耗函数:

h'定义为经过droupout的项目嵌入

CORE: Simple and Effective Session-based Recommendation within Consistent Representation Space

CORE: Simple and Effective Session-based Recommendation within Consistent Representation Space

在一致表示空间内简单有效的基于会话的推荐

1 INTRODUCTION

2 方法

3 实验

推荐阅读更多精彩内容