One Model to Serve All: Star Topology Adaptive Recommender for Multi-Domain CTR Prediction
1. Motivation
阿里妈妈发表在CIKM2021上的工作,看上去很直接,实际上工作做成非常不容易,也很有价值。
实际上,一个广告、推荐团队可能会维护非常多的广告位(推荐位),而且随着前端、运营的变化等,经常会出现广告位等变更、替换,在这种情况下,如何快速、更好地适配不同的场景?
阿里妈妈给出一种解决方案:STAR(Star Topology Adaptive Recommender)。简单来说,就是训练一个不同domain共享的模型,然后每一个domain维护一个各自的模型。
与多任务学习有点类似,但是多任务学习是一个场景学习不同任务,而这里是多个场景,每个场景的任务是相同的。另外,与MMOE、PLE等多任务学习有点类似,又不同之处在于,这里的学习方式,除了共享模型所有的数据都会学习,每个场景自己只是学习各自的数据。这样与一些多任务学习显式地区分expert或者任务、特征等,多场景显式地为每个场景区分了数据。
2. STAR
这个idea厉害在有这种大局观与推动力、工程、算法等团队优秀的支持能力。具体到模型层面,没有太特殊的地方。
包含一个所有domain共享的模型,对于每个domain自身,论文给出了一种处理方式,权重与共享模型的权重element-wise相乘,偏置采用相加的方式。
对于每个domain,用一个简单的网络,学习标识该domain的ID表示,然后融入到各自的domain里去。
然后对于底层模型的更新,不是直接使用Batch Normalization,而是区分不同domain的数据,论文提出了Partition Normalization,这也需要工程团队的支持。
3. Experiment
上线环节,考虑到不同domain的数据会有峰值差异,作者设计了一个buffer来平衡整体训练速度。
优点:
一个中台化的搞法,很强大的团队执行能力。
思考:
如果多个domain不同的任务、模型,还能便捷地这样使用吗?
4. References
[1] Sheng, Xiang-Rong, et al. "One Model to Serve All: Star Topology Adaptive Recommender for Multi-Domain CTR Prediction." arXiv preprint arXiv:2101.11427 (2021).