推荐系统论文阅读(四十四)-微信看一看(RALM):look-alike推荐的实现

论文:

论文题目:《Real-time Attention Based Look-alike Model for Recommender System》

论文地址:https://arxiv.org/pdf/1906.05022v1.pdf

召回模型有很多类型,包括i2i,u2i,gcn等等,但是u2u的模型我们在之前好像没有介绍过,今天我们就来看一下微信发表在kdd上,用look-alike模型来缓解马太效应的论文吧,这篇论文是一篇模型相对简单,但是工程给一些trick都比较抽象的论文,一起来看看吧。

一 、背景

做推荐系统的人都知道在推荐系统领域中的一个常见的现象“马太效应”,这里简单的解释一下,以微信看一看场景为例,每天都有几百万的新的新闻或者短视频被生产到平台上,但是只有那些热门的新闻容易被曝光,进而有更多的机会成为训练样本,无论是用传统的ItemCF模型还是dl模型,这些热门item都会造成我们的推荐系统偏向于这些item,而那些高质量冷门的item并不会曝光。马太效应会导致推荐系统越来越趋于那些热门的item,这就让用户在浏览的时候体验很不好,因为系统就缺失了多样性和推荐一些冷门高质量item的能力。

这里我提一个在传统协同过滤方法中的一个trick,userCF可以用于解决item冷启动问题,itemCF可以解决user冷启动问题。所以呢,微信看一看团队用的就是userCF的思想来解决item冷启动的问题。其实在广告投放领域,用look-alike的base模型是可以筛选出跟种子人群相似的人群去投放广告的,look-alike模型的思想是:Look-alike 是广告领域流行的一类方法,其核心思想是针对某个 item,先根据历史行为圈定一部分种子用户,然后通过模型寻找与种子用户相似的人群,为他们推荐该 item。look-alike 充分利用了 item 的所有行为信息,因此在定向挖掘长尾内容受众上具有独特的优势。但是在看一看这种咨询场景下,我们对于实时性的要求是比较高的,这里有一定的差异的:

1.内容时效性要求高,一条新闻投放资讯生命周期一般不超过一天。

2.候选集更新频率高,一天可能有几十上百万条新内容出现。

为什么传统的look-alike不能直接用的我们这种实时性比较强的场景下呢,主要是因为几点:

1.传统的look-alike模型需要训练出user/item embedding然后在计算相似度,而训练样本需要花费一定的时间去积累

2.在看一看新闻推荐领域中,新闻的实时性是很关键的,由于需要积累样本,所以实时性没法得到满足

所以呢,这篇论文主要就为了解决一下三个问题来建模的:

1.进行种子人群的受众用户扩展

2.保证推荐系统的多样性和准确性

3.确保实时性,也就是能在线预测

带着上面的几个问题和思路,我们直接来看一下模型结构吧。

二 、模型结构

RALM的模型主要是分成两个阶段进行训练,第一部分主要是为了进行user embedding的表示建模,第二部分是进行look-alike模型的训练,也就是受众扩展的模型。

整体的系统如下:

2.1  User Representation Learning

要准确的建模出user embedding,RALM采用了改进的youtubeDNN模型。


从图中我们也可以看到相比于youtube的方式,RALM进行了改进,改进的地方在于:

原来不同field的特征经过embedding后,都是直接concat后送到mlp里面,在RALM里面,则是加了attention。文章中也分析了直接concat带来的缺陷:与用户相关性强的特征(如感兴趣的标签)会导致过拟合,而与相关性较弱的特征(如购物兴趣)所产生的影响则有限,甚至产生负面影响。所以,不能进行直接从concat操作。结果,该模型无法在多领域特征上全面学习,并且缺乏推荐结果的多样性。

Attention merge layer.

作者认为无论是强特征还是弱特征都会给模型的训练带来影响,但是影响的程度不一样,这里我们可以联想到另一个结构,SEnet,这个结构也可以用来计算特征的重要性。但是RALM是用attention的思想来计算特征重要性的。

其中u是用户向量,w2是特征的embedding,然后就是进入加权求和到mlp层了,后面到训练就跟youtube的方法一样了,这里就不再赘述了。

2.2 Look-alike Learning


论文对于item特征的建模是比较有意思的,我们在开头的时候也说了,这篇论文主要的思想是userCF,所以呢这里对于item特征的构建就是直接用点击过这个item的user 的embedding来组成,而这部分用户也被论文定义为seed users,也就是种子人群用户,我们建模的目的是计算这些种子人群用户跟目标用户之间的相似度,但是这里我有个疑问:训练样本是如何构建的?

接着来看我们的模型结构,也是经典的双塔模型,但是有三个地方我们需要解释一下,分别是离线的k-means,还有local attention和global attention。

2.2.1 Local attention

这部分跟din中的attention思想一样,主要是用target user来激活seed users,直接看公式吧:

2.2.2 K-means

如果一个item有很多个seed users,那么上面计算attention的时间成本和计算次数也会变得非常大,所以这里采用了聚类的思想,采用的是k-means的思想来对所有对seed users进行聚类,聚类后,我们用类中心来表示这个seed user,然后我们只需要计算k次attention score就可以了。

注意,这里k-means是离线计算的,还有,需要每隔几个batch就重新聚类一次,目的是为了让模型更好的适应不同的seed users,同时减少聚类带来的信息损失。

2.2.3 Global attention

相比于local attention更关注个体信息,用户群体还有共性的、与自身组成相关的全局信息。因此我们引入 global attention unit 来捕获这部分群体信息。

global attention的思想是用self-attention来做,让seed users中不同的user交叉一下。

最后,我们得到两部分seed users的向量表示,我们将其相加:

该任务是个多分类问题(目标用户属于哪一个种子用户群),但是为了模型的训练效率,采用的是随机负采样的方式来生成负样例,点击item的种子用户做正例,随机采负例。

最后loss为多个二分类交叉熵:

三、实验结果


本文就介绍到这里了,其实关于这篇论文,我个人感觉用这种基于用户行为的模型来解决长尾问题有点怪怪的,说实话这种问题业界主要还是用策略跟规则居多?不知道为什么在这个场景下这么有效。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,864评论 6 494
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,175评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,401评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,170评论 1 286
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,276评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,364评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,401评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,179评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,604评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,902评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,070评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,751评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,380评论 3 319
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,077评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,312评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,924评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,957评论 2 351

推荐阅读更多精彩内容