One Model to Serve All: Star Topology Adaptive Recommender for Multi-Domain CTR Prediction

1. Motivation

阿里妈妈发表在CIKM2021上的工作，看上去很直接，实际上工作做成非常不容易，也很有价值。

实际上，一个广告、推荐团队可能会维护非常多的广告位（推荐位），而且随着前端、运营的变化等，经常会出现广告位等变更、替换，在这种情况下，如何快速、更好地适配不同的场景？

star_overview.jpg

阿里妈妈给出一种解决方案：STAR（Star Topology Adaptive Recommender）。简单来说，就是训练一个不同domain共享的模型，然后每一个domain维护一个各自的模型。

与多任务学习有点类似，但是多任务学习是一个场景学习不同任务，而这里是多个场景，每个场景的任务是相同的。另外，与MMOE、PLE等多任务学习有点类似，又不同之处在于，这里的学习方式，除了共享模型所有的数据都会学习，每个场景自己只是学习各自的数据。这样与一些多任务学习显式地区分expert或者任务、特征等，多场景显式地为每个场景区分了数据。

2. STAR

star_domain.jpg

这个idea厉害在有这种大局观与推动力、工程、算法等团队优秀的支持能力。具体到模型层面，没有太特殊的地方。

包含一个所有domain共享的模型，对于每个domain自身，论文给出了一种处理方式，权重与共享模型的权重element-wise相乘，偏置采用相加的方式。

对于每个domain，用一个简单的网络，学习标识该domain的ID表示，然后融入到各自的domain里去。

然后对于底层模型的更新，不是直接使用Batch Normalization，而是区分不同domain的数据，论文提出了Partition Normalization，这也需要工程团队的支持。

3. Experiment

star_result.jpg

上线环节，考虑到不同domain的数据会有峰值差异，作者设计了一个buffer来平衡整体训练速度。

优点：
一个中台化的搞法，很强大的团队执行能力。

思考：
如果多个domain不同的任务、模型，还能便捷地这样使用吗？

4. References

[1] Sheng, Xiang-Rong, et al. "One Model to Serve All: Star Topology Adaptive Recommender for Multi-Domain CTR Prediction." arXiv preprint arXiv:2101.11427 (2021).

STAR, CIKM21, 阿里妈妈“一个模型供全部”

STAR, CIKM21, 阿里妈妈“一个模型供全部”

1. Motivation

2. STAR

3. Experiment

4. References

推荐阅读更多精彩内容