论文阅读:Alibaba-Deep Interest Evolution Network for Click-Through Rate Prediction

上篇介绍了Alibaba-Deep Interest Network for CTR Prediction,本篇介绍的内容可以说是Alibaba在上篇进一步的工作,本篇论文发表在2018AAAI。

提纲

  1. 解决的问题
  2. 方法
  3. 启发与疑问

1. 解决的问题

随着时间的推移,用户的兴趣会发生变化;然而在淘宝购物场景下,用户的本次的购买行为可能并不是与上一次的行为强相关,因此,这篇论文解决的该情形下用户兴趣演化的问题。

为了解决上述问题,本文做了以下几个工作:

  • auxiliary loss(interest extractor layer)
  • AUGRU(interest evolving layer)

2. 方法

由于特征的处理方式与上篇一样,因此这次不再赘述,直接从模型开始说起。本文的模型一共主要有2个部分:Interest Extractor Layer,Interest Evolving Layer;而Behavior Layer就是用户的时序行为。


DIEN

从整体模型看,与上篇的整体框架是一样的,在特征输入中都是包含了user behavior、target Ad、context feature、user profile feature。但是本文的user behavior是一个时序模型,而这个模型就是本文的重点DIEN。 在Interest extractor layer,本文是用GRU构建模型,而该层的loss改进为auxiliary loss; 在Interest Evolving layer, 由于用户会浏览不同种类的商品,因此用户的行为并不一定与上一次强相关,因此本文仍然采用attention的方式,通过上一层interest extractor layer的输出与target Ad计算attention,然后通过AUGRU得到最后的user behavior表示。最后,在分别得到user behavior、target Ad、context feature、user profile feature的表示后,通过concat/flatten的方式一起作为MLP的输入。

2.1 Interest Extractor Layer

本文选取的是两周的历史窗口,如果用户行为比较稀疏的话,也可能增加时间窗口的长度。

本文将点击看做0/1分类的问题,使用的loss为log-loss:

L_{target} = -\frac{1}{N}\sum_{(x, y) \in D}^N{y\log p(x) + (1-y)\log (1-p(x))}

N表示数据集的大小,\textbf{x}=[\textbf{x}_p, \textbf{x}_a, \textbf{x}_c, \textbf{x}_b],其中\textbf{x}_p, \textbf{x}_a, \textbf{x}_c, \textbf{x}_b分别表示user profile, ad, context, user behavior; context本文指的是历史点击行为。

本文指出,由于最终的target item是被最后的兴趣触发,L_{target}只能对最终的兴趣做评价,因此在此之前的隐状态得不到有效的学习。本文假设,上一个行为会直接影响下一个行为,因此,本文提出auxiliary loss希望能让h_t也得到很好的监控。

原文:

As the click behavior of target item is triggered by final interest, the label used in L_{target} only contains the ground truth that supervises final interest’s prediction, while history state h_t (t < T) can’t obtain proper supervision.

L_{aux} = -\frac{1}{M}(\sum_{i=1}^{M}\sum_t \log \sigma(\textbf{h}_t, \textbf{e}_b^i[t+1]) + \log (1-\sigma(\textbf{h}_t, \hat{\textbf{e}}_b^i[t+1])))

M表示M\{\textbf{e}_b^i,\hat {\textbf{e}} _b^i\}\textbf{e}_b^i表示点击行为序列,\hat {\textbf{e}} _b^i[t]表示非点击行为序列。

\textbf{e}_b^i[t] \in G表示用户it时刻点击商品的embedding vector, \hat {\textbf{e}} _b^i[t]\in G-\textbf{e}_b^i[t];注意,这里的negative samples是在全部的商品中采样的。

L = L_{target} + \alpha * L_{aux}

\alpha为超参数,用来平衡兴趣表示和CTR预估

Auxiliary loss的好处:

  • helps each hidden state of GRU represent interest expressively.
  • reduces the difficulty of back propagation when GRU models long history behavior sequence
  • gives more semantic information for the learning of embedding layer, which leads to a better embedding matrix

(个人想法,觉得负采样的范围在曝光商品中可能会更好,在Airbnb的论文中也提到过)

2.2 Interest Evolving Layer

先说说GRU

GRU

这里表示用户在时刻的行为

关于attention的计算:
a_t = \frac{\exp (\textbf{h}_t \textbf{We}_a)}{\sum_{j=1}^T{\exp (\textbf{h}_j \textbf{We}_a)}}

本文尝试了几种attention mechanism和GRU合并的方式:

AIGRU

直接将attention作用于隐状态\textbf{h}_t:

\textbf{i}'_t=\textbf{h}_t * a_t
我的理解是直接将a_t作用于隐状态(历史信息)

However, AIGRU works not very well. Because even zero input can also change the hidden state of GRU, so the less relative interests also affect the learning of interest evolving.

AGRU

a_t代替\textbf{u}_t:

\textbf{h}'_t = (1-a_t) * \textbf{h}'_{t-1} + a_t * \tilde{\textbf{h}}_t'

AGRU weakens the effect from less related interest during interest evolving. The embedding of attention into GRU improves the influence of attention mechanism, and helps AGRU overcome the defects of AIGRU.

AUGRU

\tilde{\textbf{u}}_t' = a_t * \textbf{u}_t'
\textbf{h}_t' = (1-\tilde{\textbf{u}_t'}) \cdot \textbf{h}_{t-1}' + \tilde{\textbf{u}_t'} \cdot \tilde{\textbf{h}}_t'
原作之一原话:“AUGRU的小改进是针对AGRU忽视了方向信息直接用变量替代向量的问题”。

我的理解是:a_t作用于\textbf{u}_t,影响范围更广。

Based on the differentiated information, we use attention score a_t to scale all dimensions of update gate, which results that less related interest make less effects on the hidden state. AUGRU avoids the disturbance from interest drifting more effectively, and pushes the relative
interest to evolve smoothly.

3. 启发与疑问

由于该篇论文的实验对比没什么太多的重点,因此省略了实验部分的介绍。下面是我的两点想法:

  • 用户购买房子的周期比较长,但是在之前对用户行为的分析中发现,大部分的房源其实用户只会点击一次,而少部分的房源可能会出现在用户的整个购买周期中。如果只按时间衰减,可能会损失掉一些用户感兴趣房源的信息,如果利用本文的思路,是不是可以优化这个问题呢?

  • 我一直对AUGRU的演化过程比较好奇,从标量变为矢量,可能这也是经验的积累吧。

参考资料

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,558评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,002评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,036评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,024评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,144评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,255评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,295评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,068评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,478评论 1 305
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,789评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,965评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,649评论 4 336
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,267评论 3 318
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,982评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,223评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,800评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,847评论 2 351

推荐阅读更多精彩内容