第13届推荐系统顶会RecSys在丹麦哥本哈根举行,今年我还是中了一篇短文。今年的RecSys人数历史最多,达到850人,并且其中73.4%的都是来自工业界的,足见推荐系统在工业界应用之广泛。
Best Paper
今年的RecSys格外引人注目就是因为拿到了最佳论文的这篇文章--"Are we really making much progress? A worrying analysis of recent neural recommendation approaches"。
题目就起的足够吸引眼球。而我的大部分工作都是和深度学习相关的,所以在开会之前就注意到了这篇文章。这个工作考虑了18个top-n推荐相关的算法,发现只有7个工作可以被重现,其中又有6个可以被经典的推荐算法超过。个人认为如果深度学习算法能那么简单的被经典算法超过,那么不大可能有目前各大公司几乎都在使用深度学习算法的情况了。
但是这篇文章确实指出了目前学术届需要注意的问题--算法的可复现性。这个问题其实已经越来越被学术届重视,像NeuraIPS审稿时要求提交代码,KDD也放出了可复现性(reproducibility)的相关政策。开源一可以对自己在写代码的时候提出更高的要求,二是对整个研究领域有更大的积极贡献。此外,在进行baseline的选择的时候,也需要本着负责的态度,选择真正state-of-the-art的baseline。
一些有趣的新的科研问题
1. GDPR及隐私公平相关限制条件下的推荐。
会议的Keynote讨论的一个重点问题就是GDPR。其实在这之前我连这四个字母代表着什么意思都不清楚。GDPR全称是General Data Protection Regulation,是欧盟范围内确立基础性的一些原则和处理方法,对数据收集,存储和使用提出了一系列要求。如何在有限的数据资源的条件下,进行个性化推荐就成为了一个很有意思的问题。
相关论文有
(i) 当用户属性不可用的时候,借助于user-item二部图嵌入获得更多信息 Attribute-Aware Non-Linear Co-Embeddings of Graph Features
(ii) 在社交网络上进行采样时,保证用户隐私 Efficient Privacy-Preserving Recommendations based on Social Graphs
(iii) 考虑推荐中的公平问题 Personalized Fairness-aware Re-ranking for Microlending
2. 组合推荐问题
当我们给用户推荐一个item列表的时候,item-item之间是有相互作用的,并不是我们通常假设的相互独立的。比如当两款相似的鞋子被一起推荐了,那么便宜的那款被点击的概率就会高于贵的那款。
相关论文有
(i) Personalized Re-ranking for Recommendation
3. 推荐中的多任务问题
推荐中需要优化的目标往往不是单一的,比如我们需要考虑用户的兴趣,以及公司的利润,用户的活跃时长等等,这很自然的就可以建模成为一个multi-task的问题
相关论文有
(i) Recommending What Video to Watch Next: A Multitask Ranking System
总结
其实每次参加会议,看到很多人在一起解决同一个问题,就会觉得还是有战友的。在会议期间和很多有趣的人聊了,也会觉得视野更开阔了些。推荐系统这个社区还是很open的。
其实我自己一直在思考推荐系统的目的究竟是什么。如果只是为了增加公司利润,提高用户粘性,那么用户不可避免的就会被陷入一个filter bubble中,只能看到系统希望我们看到的东西。这种bias还可能在恶性循环中不断被放大。另外用户的行为是复杂的,持续变化的,而我们的算法大部分都在假设用户的行为服从某个模型......总之,问题很多,挑战很大,踏实的慢慢的继续研究下去就好。
以上