1. Top-K Off-Policy Correction for a REINFORCE Recommender System, WSDM 2019, Google
作者:Minmin Chen, Alex Beutel, Paul Covington, Sagar Jain, Francois Belletti, Ed Chi;
论文:t.cn/EUus1wu;Keynote:t.cn/EJFyMBk;
位列首位的当属Youtube推荐强化学习的两篇论文。虽然强化学习目前在推荐系统和CTR预估领域工业界由于系统复杂、效果未有显著提升等众所周知的原因确实不够成熟也尚未大规模应用起来。但是Youtube推荐的这两篇论文从某种程度上让强化学习的应用方向变得更明确了一些,而且作者在Industry Day上也宣称线上实验效果显示这个是YouTube单个项目近两年来最大的reward增长,也从某种程度上会激发各大公司的研究者们继续跟进的兴趣。
这是第一篇论文,提出了一种Top-K的Off-Policy修正方案将RL中Policy-Gradient类算法得以应用在动作空间数以百万计的Youtube在线推荐系统中。
2. Reinforcement Learning for Slate-based Recommender Systems: A Tractable Decomposition and Practical Methodology, IJCAI 2019, Google
作者:Eugene Ie, Vihan Jain, Jing Wang, ..., Jim McFadden, Tushar Chandra, Craig Boutilier;
论文:t.cn/AiKFHvYU;
这是Youtube推荐应用强化学习的第二弹,主要贡献是提出了一种名为SLATEQ的Q-Learning算法,优化推荐系统里面同时展示给用户多个item情况的长期收益LTV(Long-term Value),将长期收益加入排序多目标中进行建模优化。重点在于与baseline使用的深度网络和输入特征都完全一样。详见:Youtube推荐已经上线RL了,强化学习在推荐广告工业界大规模应用还远吗?
3. Deep Learning Recommendation Model for Personalization and Recommendation Systems
作者:Maxim Naumov, Dheevatsa Mudigere, Hao-Jun Michael Shi,..., Bill Jia, Liang Xiong, Misha Smelyanskiy;
论文:t.cn/Ai0rIUd0;代码:t.cn/AiNGzCsY;解读:t.cn/AiOX38PL;
FaceBook推荐最新论文,通过建模与系统协同设计提出一种butterfly-shuffle的机制来提升模型并行化,离线训练上在没有任何超参调优下收敛速度与准确率优于DCN,并开源了代码。
4. Feature Generation by Convolutional Neural Network for Click-Through Rate Prediction, WWW 2019, Huawei
作者:Bin Liu, Ruiming Tang, Yingzhi Chen, Jinkai Yu, Huifeng Guo, Yuzhou Zhang;
论文:t.cn/AipAFS3p;
华为 at WWW 2019,提出基于卷积神经网络的CTR特征生成方法FGCNN,包含特征生成和深度分类器两部分,可以和任意CTR预估模型进行组合。
5. Deep Spatio-Temporal Neural Networks for Click-Through Rate Prediction, KDD 2019, Alibaba
作者:Wentao Ouyang, Xiuwu Zhang, Li Li, Heng Zou, Xin Xing, Zhaojie Liu, Yanlong Du;
论文:t.cn/Ai0jTY68;代码:t.cn/Ai0jTY6u;
阿里 at KDD 2019,提出DSTN模型用于点击率CTR预估,考虑更多空域与时域的辅助信息包括上下文展示过的ad以及历史点击/未点击ad来更好地预测目标item的点击率。从论文实验数据看,效果大幅度超过DeepFM和GRU,并开源了代码。
6. AutoInt: Automatic Feature Interaction Learning via Self-Attentive Neural Networks
作者:Weiping Song, Chence Shi, Zhiping Xiao, Zhijian Duan, Yewen Xu, Ming Zhang, Jian Tang;
论文:t.cn/AipG8aXz;代码:t.cn/EI8Pnso;
最新的深度CTR预估模型AutoInt,通过过Multi-head注意力机制将特征投射到多个子空间中,并在不同的子空间中捕获不同的特征组合形式,效果超过xDeepFM等达到最好。
7. Real-time Attention Based Look-alike Model for Recommender System, KDD 2019, Tencent
作者:Yudan Liu, Kaikai Ge, Xu Zhang, Leyu Lin
论文:t.cn/AiOaAg1Q;解读:t.cn/AiOaAg1E;
腾讯 at KDD2019,微信看一看团队对传统Look-alike进行了改造,提出实时Look-alike算法RALM,解决推荐系统多样性问题,效果好于YoutubeDNN。
8. Joint Optimization of Tree-based Index and Deep Model for Recommender Systems
作者:Han Zhu, Daqing Chang, Ziru Xu, Pengye Zhang, Xiang Li, Jie He, Han Li, Jian Xu, Kun Gai;
论文:t.cn/AiN5T8Ks;TDM论文:t.cn/RQ5MrSg;
还记得阿里 at KDD 2018的深度树匹配召回模型TDM吗?升级版JTM提出索引与模型同时优化的方案,大幅提升召回效果。
9. Deep Session Interest Network for Click-Through Rate Prediction, IJCAI 2019, Alibaba
作者:Yufei Feng, Fuyu Lv, Weichen Shen, Menghan Wang, Fei Sun, Yu Zhu, Keping Yang;
论文:t.cn/AiN9QZnV;代码:t.cn/AiN9QZnV;
阿里 at IJCAI2019,考虑到不同用户行为序列的session内行为同构与session之间行为异构的特性提出了基于sesssion的CTR预估模型DSIN。使用self-attention机制抽取session内用户兴趣,使用Bi-LSTM针对用户跨session兴趣进行建模。
10. Interaction-aware Factorization Machines for Recommender Systems, AAAI2019, Tencent
作者:Fuxing Hong, Dongbo Huang, Ge Chen;
论文:t.cn/Ai0WHak5;代码:t.cn/Ai0WHakt;
腾讯 at AAAI2019,提出IFM通过特征以及特征组不同角度灵活学习特征间交互的重要性,并提出了通用的Interation-NN框架和DeepIFM来捕捉高阶交互,效果优于DeepFM并开源了代码。
11. Multi-Interest Network with Dynamic Routing for Recommendation at Tmall
作者:Chao Li, Zhiyuan Liu, Mengmeng Wu, ..., Qiwei Chen, Wei Li, Dik Lun Lee
论文:t.cn/AiOao6I4;解读:t.cn/AiOao6I4;
阿里天猫提出MIND模型通过Dynamic Routing的方法从用户行为和用户属性信息中动态学习出多个表示用户兴趣的向量,更好的捕捉用户的多样兴趣,来提升召回的丰富度和准确度,效果好于YoutubeDNN。
12. Representation Learning-Assisted Click-Through Rate Prediction, IJCAI 2019, Alibaba
作者:Wentao Ouyang, Xiuwu Zhang, Shukui Ren, Chao Qi, Zhaojie Liu, Yanlong Du;
论文:t.cn/Ai0jcGIZ;代码:t.cn/Ai0jcGIw;
阿里 at IJCAI2019,提出DeepMCP模型通过匹配、关联、预测三个子模块更好地建模用户-ad,ad之间以及特征-CTR关系,效果优于DeepFM并开源了代码。