Abstract:
根据用户在web上的浏览信息和搜索信息提取出用户的特征集(feature set)用来表征用户。用一种深度学习的方法把用户和item投影到一个潜在空间,使得在这个潜在空间中用户和用户偏爱的item的相似度是最大的。multi-view deep learning model 模型会学习用户特征以及来自不同domain的item的特征。(同时,通过减少输入的维度以及训练数据的大小,这种基于大量丰富特征的用户表征也具有可拓展性。)这种用户特征表征可以让模型学习到相关的用户行为模式,即使用户在某一个domain里面没有任何行为,只要该用户有足够多的浏览和搜索历史记录,就能为用户进行比较满意的推荐。把不同的domain融合成一个模型有两个好处:一是提高对于所有domain的推荐系统的质量,二是可以生成更简洁更具有语义丰富性的用户特征向量。效果:将这种方法运用到了微软的三个推荐系统Windows APP推荐 News推荐 和 Movie/TV推荐,对于现存用户提升49%,对于新用户提升115%。对于一些开源数据集,相比于传统的生成主题模型,mv模型也显示出了优越性。可拓展性分析表明这种模型可以很轻松扩展到数百万级的用户和十亿级的item。实验结果表明,融合不同domain的特征去训练model,比单独为每一个domain训练各自的model的表现更好。
INTRODUCTION
在线网络服务中推荐系统和内容个性化扮演着越来越重要的角色。一个比较主流的方法是协同过滤,利用用户在web上的历史行为来为用户推荐最相关的内容。更具体来说,基于物品的协同过滤就是通过用户对物品的行为数据来计算物品与物品之间的相似度,为用户推荐喜欢的物品相似的物品,举个例子如果一个用户喜欢物品A的同时也喜欢物品B那么就认为物品A与物品B相似,基于用户的协同过滤就是通过物品的对用户的行为数据来计算用户与用户的相似度,为用户推荐相似用户喜欢的物品。除此之外还有一种主流方法是基于内容的推荐,根据物品与物品特征上的相似度,比如说相同的topic,为用户推荐用户喜欢过的其他类似属性的物品。或者是,根据用户与用户特征上的相似度,比如说age,gender,location相似,可以为一个用户推荐与这个用户相似的用户喜欢过的物品。这些方法虽然也解决了很多的实际场景,但随着对推荐质量与个性化的不断追求与提升也面临着限制和挑战。
这些限制具体来说,CF在能够进行高质量推荐之前需要大量的历史数据,也就是面临着冷启动问题。而对于基于内容的推荐,是根据物品与物品属性的相似度,或者用户与用户属性的相似度去进行推荐的,可以很好地去避免冷启动的问题,但是用户级别的特征往往是从web上有限的用户画像中提取的,不能够很准确的捕捉到用户的兴趣。
所以论文提出了一种结合用户和物品特征的推荐系统。用户特征的构建不依赖于用户画像,而是通过用户的浏览搜索的历史记录来构建用户兴趣。这种方法的提前假设是,用户在线历史活动反映了用户的背景及偏爱,从而可以根据用户在线历史行为为用户提供更准确的推荐。比如,如果一个用户有着大量怀孕相关的搜索或者访问相关的网址,很可能就说明这个用户是一位孕妇。用户大量的线上浏览搜索记录能使推荐系统更加高效。
这个模型能够把用户和物品投影到一个共享的语意空间中,为用户推荐与用户相似度最大的物品。具体做法是将用户和物品用特征集表示,通过非线性转换层将其投影到共享的语意空间,使得在这个语意空间中用户与用户偏爱的物品的之间的相似度最大。这样可以让模型学习到很多有趣的映射,比如说经常访问fifa.com的人会偏爱阅读有关世界杯的News文章,会在PC或者Xbox上玩足球游戏。这些user侧的丰富的特征可以表征用户行为并且克服了基于内容推荐的一些限制。另外这种模型可以避免冷启动问题,因为模型可以从搜索浏览记录中捕捉用户特征用来推荐相关物品。
MV learning是指从不共享特征空间的多个domain中学习模型。MVDNN可以通过渗透多domain的数据来学习到更好的用户表征。实验结果表明mv模型的推荐质量同时高于各个领域单独的模型。