Deep Interest Network for Click-Through Rate Prediction
1. Motivation
本文是阿里妈妈发表在KDD18上的论文,最主要的贡献表现在对于用户的输入行为序列与当前要打分的target item之前进行attention操作,对输入行为序列进行加权求和得到user的个性化的向量表示。
Motivation就是作者注意到用固定的embedding来表示user,在面对不同的打分item时不够灵活,表达能力不足;从而基于与attention类似的方式(与attention不完全相似,主体思想类似)学习user与item之间的显式交互。
2. DIN
2.1 Attention
看上去很直接,现在基于attention建模用户行为序列也称为标配了。与传统的attention不完全一致,输出的时候不用softmax对所有item的权重归一化。
2.2 Mini-batch Aware Regularization
作者认为传统的L1或者L2正则化需要对全局的参数计算,可能涉及到参数量过大。
是embeding table, 是embedding的维度。作用于的L2正则表示为,
Mini-batch L2正则表示为,
代表第个mini-batch,表示feature id 在全体样本中出现的次数。只对每个mini-batch中出现(非零)的参数做正则化。
这属于对于大规模embedding table的正则化工程层面的优化实现。
2.3 Data Adaptive Activation Function
PReLU是,
是一个示性函数。
作者认为PReLU不能适应每一个layer的输入的分布不同的情形,从而提出了Dice的激活函数,
,
本质上对每一个输入都维护类似Batch LayerNormalization一样需要记录的均值与方差,在激活之前进行标准化。
3. Experiment
优点:
(1)
现在对于用户行为序列做attention或者self-attention已经成为标配了,阿里妈妈团队确实思考与行动非常超前。
思考:
(1)对于冷启动item,或者用户行为序列里并没有的兴趣、临时可能迸发出来的兴趣,除了探索(exploitaion),还有没有更高效的方法?
4. References
[1] Zhou, Guorui, et al. "Deep interest network for click-through rate prediction." Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2018.