esmm

参考文献：

https://guyuecanhui.github.io/2019/11/09/paper-2018-ali-esmm/

https://blog.csdn.net/sinat_15443203/article/details/83713802

https://blog.csdn.net/m0_37870649/article/details/87378906

业务中经常会遇到CVR的问题，无论是后验转化，还是购买转化，都是一个稀疏性样本的学习

现阶段，普通的模型，都是学习点击后行为，如点击且转化为1，点击不转化为0，很显然，这种构造样本的方式天然存在bias，serving阶段，需要预估的item包括了曝光未点击的行为，由于模型并没有见过这种样本，所以大概率是无法预估准确的

如果用真实分布进行训练，即曝光点击且转化的为1，其他为0，这样数据就特别稀疏，即使做大量的负采样，效果也不会好，因为正负样本比例太不均匀了。

通常解决办法有几种：

1、加大样本，通常是拉长时间窗口，正样本通过历史数据补齐，负样本则随机采样，争取获得较多的正样本学习。

2、MTL shared-bottom多个目标共享，学习底层embedding，如esmm等方式。

今天着重讲esmm

文章在已有工作的基础上，提出使用多任务学习的框架，使用所有展示->点击->转化数据进行训练，将 CVR 预测问题转变为同时预测 CTR 和 CTCVR 的问题。由于使用所有展示样本，因此不存在 SSB 问题（非有效曝光）；在多任务学习下共享 embedding 向量，实际上是一种参数迁移学习，可以有效的解决 DS 问题（数据稀疏）。

其实原理就是利用ctr的非稀疏样本去学习底层share bottom的部分，这样cvr也能用到这部分embdding，同时cvr的非稀疏样本也能让这个bottom学习更相关的转化目标，同时，这个bottom可以用来预估pctr*pcvr的结果。达到非常好的效果。

所以最终的loss构成，应该是三个loss一起优化，详细见代码：

再看模型结构：

推荐阅读更多精彩内容