因果推断推荐系统工具箱 - MRDR（一）

文章名称

Enhanced Doubly Robust Learning for Debiasing Post-Click
Conversion Rate Estimation

核心要点

点击后转化是构建推荐系统的重要且有意义的信息之一，然而这一信息通常比较稀疏，并且由于曝光、用户点击偏好等影响，转化数据通常是有偏的。现有的DR方法引入的EIB部分在某种条件下，可能导致模型的方差比IPS方法的更大。因此，作者通过推到DR方法的BIas和Variance，提出MRDR的方法，来减少方差。并且提出Double learning的方法训练MRDR模型，把imputation error估计转化为CVR估计，并且验证这种训练方法也可以进一步降低方差。

方法细节

问题引入

为了保持完整性，我们回顾一下DR方法的大致演进过程，细节可以参见因果推断推荐系统工具箱 - Doubly robust joint learning for recommendation on data missing not at random（一）
。假设我们能够观察到所有用户-物品元组的转化率，也就是转化矩阵 $R \in \{ 0, 1\}^{m \times n}$ 的每一个元素都是已知的，此时不需要任何预测。由于曝光、点击等漏斗，转化矩阵肯定是有缺失的。推荐系统的任务就是去预估这些缺失。在没有任何selection bias的情况下，转化矩阵的元素是随机缺失的（MAR）。此时，我们可以利用如下图所示的损失函数进行模型参数学习。其中 $e_{u, i} = Cross Entropy(r_{u,i}, \hat{r}_{u,i})$ ， $\hat{r}_{u,i}$ 表示推荐模型预估的转化率。

ideal Loss

在CVR的场景下，由于点击是用户依据自己的偏好决定的，所以天然具有selection bias（MNAR）。矩阵 $O \in \{ 0, 1\}^{m \times n}$ 表示用户是否点击了某个物品（的曝光）。因此，通常不做纠偏的推荐模型，是在利用如下图所示的损失进行模型参数的学习，可以看出，两式中的每一个求和项都存在系数 $o_{u, i}$ 的偏差。

naive loss

也就是说，navie模型的预估损失和在无偏数据下训练出来的同样模型偏差是不等的。因为矩阵 $O$ 不是在矩阵 $R$ 上随机缺失的（不然，下面的期望就相等了）。

click bias

一种方法是，把损失拆开成观测到的和没有观测到的两部分。可以看出EIB就是在 $L_{naive}$ 中的每一项都多加了一部分。这部分表示没有观测到的用户-物品元组的损失（当然是估计，因为我们不知道真实的转化情况），可以证明这个损失是相对 $L_{ideal}$ 无偏的，具体参见[1]。但是，由于我们无法准确度量插入损失 $\hat{e}_{u, i}$ 的（预估）准确程度。因此，仍然会带来很大偏差（虽然比原来要小）。

EIB

另一种方法，是采用IPS，如下图所示，其中 $\hat{p}_{u, i}$ 表示用户-物品元组被用户点击的概率（是 $o_{u, i}$ 的估计值）。可以证明这个loss也是相对 $L_{ideal}$ 无偏的，具体参见[2]。但是 $\hat{p}_{u, i}$ 通常比较小，因此学习得到的模型存在较大方差。

IPS

第三种方法DR，结合了两者，其损失如下图所示。同样可以证明，只要 $\hat{p}_{u, i}$ 或 $\hat{e}_{u, i}$ 中的一个可以估计准确就，这个loss就是相对 $L_{ideal}$ 无偏的，放松了上边两种方法的条件，具体参见[3]。

通常DR方法中，imputation error $e$ 是用一个和转化率预测模型无关的模型来估计的（独立的回归模型）。同时，由于这个模型也是用存在selection bias的数据的真实误差 $e_{u, i}$ 当做监督信息，因此，仍然需要进行IPS调权。细心地你一定发现了，和IPS方法一样，这个imputation error的学习模型也因此引入了较大的方差。文章同样给出了无偏的证明，详细的推到过程也可以参见[3]或者因果推断推荐系统工具箱 - Doubly robust joint learning for recommendation on data missing not at random（一）
，这里就不赘述了。

DR imputation error

作者推导了DR的方差，如下图所示。

DR Variance

其中 $o$ 的方差推导过程如下，其中主要是利用了方差的公式，并且提出了与 $o$ 不相关的其他项。首先看求和好里边的每一项， $V_{o_{u, i}}[\hat{e}_{u,i}+\frac{o_{u,i}(e_{u,i} - \hat{e}_{u,i})}{\hat{p}_{u,i}^{2}}]$ ，由于只有 $o_{u,i}$ 和方差相关，其他均为常数，可以被提出来。利用方差-期望公式，把方差转为期望。第三步，由于 $o_{u,i}$ 是服从伯努利分布的，因此 $E_{o_{u, i}[o_{u,i}]} = E_{o_{u, i}[o_{u,i}]}^2$ 。第四步，由于在IPS方法中我们定义 $p_{u, i}=E_{o_{u, i}[o_{u,i}]}$ ，因此可以替换为 $p_{u, i}$ ，但是为了后续推导，并没有把最左边的 $E_{o_{u, i}[o_{u,i}]}$ 也替换，而是利用期望的性质 $E(CX) = CE(X)$ 把常数放到期望里去。

DR Variance Derivation term o

把上述结果带入到求和式子中，可以得到DR方法的最终方差，推导过程如下图所示。其中利用了方差性质 $V(CX) = C^2V(X)$ ，把常数项提了出来。另外，为了说明方差和倾向性得分有关把上式子中的 $o_{u,i}$ 也替换成了 $p_{u,i}$ 。

DR variance

也可以推导出IPS方法的方差如下图所示。

IPS variance

从公式中可以看出，DR的方差依赖于对倾向性得分的估计， $\hat{p}_{u, i}$ ，在文章提到的场景下，也就是对CTR的估计。由于CTR的数值一般比较小，加之估计误差，导致DR方差的方差也比较大。**但是，对比DR和IPS的方差，我们仍然发现，只要 $0 \leq \hat{e}_{u,i} \leq 2e_{u, }$ ，DR方法仍然降低了IPS的方差。

具体做法

MRDR

如上所述，只有确保imputation error估计的足够准确，才能确保DR方法相对于IPS是降低了方差的（注意，bias是肯定比IPS小的）。因此，作者提出在学习imputation error模型的时候直接优化DR的方差，作者称之为MRDR方法。也就是说，这个方法和DR没有本质区别，只是把损失函数换成了由DR的方差公式推导出来的式子。具体公式如下图所示。其中，为了在观测数据上估计，在第一步作者还是保留了 $o_{u,i}$ 。

MRDR imputation error loss

DR imputation error loss

对比DR方法的imputation error的损失函数，发现求和项中的系数从 $\frac{1}{\hat{p}_{u,i}}$ 变为 $\frac{1-\hat{p}_{u,i}}{\hat{p}_{u,i}^2}$ 。

这个变换具有如下图所示的性质，核心思路是降低倾向性得分较小的样本的权重，提升较大的样本的权重，来减小方差。

change in factors

下一节，讲解文章的另一个贡献double learning方法。

心得体会

无偏和无误差

可能有些同学会混淆，无偏和无误差。误差是由于模型精度，超参数选择，训练过程的随机性（以及一些模型假设的不合理）造成的。由于selection bias造成的偏差，也是误差的一部分。文章探讨的无偏，或者去除selection bias，并不能保证模型没有其他的误差，只是把由于CTR这个漏斗造成的偏差尽可能的消除。一系列的方差和其他误差，仍然会造成模型估计结果的不准确。因此，消偏只是把模型的预估误差减少，或者说让误差回到没有数据偏差影响下的结果。（不知道是不是能被称之为系统误差和非系统误差）

MRDR

利用方差作为新的学习模型参数的损失函数，其实仍然是在对样本进行调权。因为imputation error的学习没有明确的方法来验证准确性。因此，从降方差的实际目的出发，来进行模型学习，能保证模型具有我们想要的性质。似乎也可以理解为另一种启发式的学习方法。

文章引用

[1] José Miguel Hernández-Lobato, Neil Houlsby, and Zoubin Ghahramani. Probabilistic matrix factorization with non-random missing data. In International Conference on Machine Learning, pages 1512–1520. PMLR, 2014.
[2] Yuta Saito, Suguru Yaginuma, Yuta Nishino, Hayato Sakata, and Kazuhide Nakata. Unbiased recommender learning from missing-not-at-random implicit feedback. In Proceedings of the 13th International Conference on Web Search and Data Mining, pages 501–509, 2020.
[5] Miroslav Dudík, John Langford, and Lihong Li. Doubly robust policy evaluation and learning. In Proceedings of the 28th International Conference on International Conference on Machine Learning, page 1097–1104, Madison, WI, USA, 2011.

因果推断推荐系统工具箱 - MRDR（一）

文章名称

核心要点

方法细节

问题引入

具体做法

MRDR

心得体会

无偏和无误差

MRDR

文章引用

推荐阅读更多精彩内容