论文:
论文地址:https://arxiv.org/pdf/1805.10727.pdf
论文题目:《Perceive Your Users in Depth: Learning Universal User Representations from Multiple E-commerce Tasks 》
一 、背景
在上一篇文章中,我们介绍了阿里巴巴用多任务学习的方式来预估CVR,消除了样本选择偏差和数据稀疏两个问题。可以看到阿里是很喜欢多任务学习的,那么为什么要使用多任务学习呢?或者说,多任务学习相比于单任务学习有哪几方面的优势呢?总结一下两点:
1.首先,多任务模型相比于单任务模型可以共享一部分网络结构,减少了模型的大小,可以更快并且花费更少的在线CPU成本,对于在线服务更加友好,可以保证线下服务性能的稳定性,支撑更大的QPS。同时,对于存储资源也会大大的节省,因为我们共享了embedding,所以所有的子任务共享的了一份embedding,只需要保存一份就可以。
2.其次,用多任务学习的方式来学习用户和物品的表示更加立体可靠的通用表示,这些学习到的embedding可以方便的在其他任务中使用。
基于以上两点,阿里巴巴提出了DUPN,下面我们就来介绍一下吧。
二、DUPN模型结构
先看一下模型的结构,从直接上来看,整个模型结构是以LSTM为主的,用LSTM来对用户的行为序列建模,然后用Attention机制来整个学习到的向量。可以看到,DUPN一共分为五层,用户行为序列层、Embedding层、LSTM层、Attention层、多任务层。接下来,我们来一一介绍这几部分。
2.1 用户行为序列层
模型的输入是用户的行为序列x = {x1,x2,...,xN},行为序列中的每一个行为都有两部分组成,例如第i个行为xi被表示成,item-i表示这次行为对应的淘宝中的商品,不仅仅是商品本身,还包含商品的一些side-information,比如店铺ID、品牌、品类、标签等等。propertyi表示此次行为的一些属性,比如场景(scenario,如搜索、推荐、聚划算等等场景)时间、类型(点击、购买、加入购物车等等)。商店ID,品牌,类别和商品标签的通用特征用于建模其共同因素,而商品ID的个性化特征用于建模特殊因素。 对于长尾物品和新物品,通用功能将起主导作用。 对于流行商品,个性化功能将占主导地位。
2.2 Embedding层
这个没什么好解释的,对于每一个特征分别作embedding操作:
没一个类别的embedding大小在图里都有,可以看到这些大小都不算很大,基本是都在32以下。对item feature来说,包括商品id、店铺、品牌、品类、标签,这些在淘宝中词表的大小分别为1G、1M、10M、1M、100K,对应的embedding的长度分别为32、24、24、16和28。这些有的是multi-hot的,比如商品可能会有多个标签,这些会通过pooling操作进行转换。
而对于行为property来说,场景、时间和类型的embedding的长度均为16。因此最终每一个行为的Embedding长度为32 + 24 + 24 + 16 + 28 + 16 * 3 = 172。
这里的向量长度其实不算很大,可能是为了避免太长的向量会对模型造成过拟合。
2.3 LSTM层
LSTM结构在很多地方都有详细的描述,在这里我们就直接给出计算过程了:
跟LSTM的计算方式是一样的,不要看输入是两个向量p跟e,其实如果把两个合起来看就是一个向量了。
这里的每个时间步的输入向量的维度是128.
2.4 Attention层
其中at是每个隐藏状态ht的权重,attention(·;ω)是attention网络,它是两层全连接网络,并接受查询向量q,用户向量u,第t个隐藏状态ht和行为属性pt作为输入。
可以看一开始模型结构图,可以看到attention层出来后的向量这么组成的:
经过attention层得到的128维的向量,拼接上128维的用户向量,最终得到一个256维向量作为用户的表达。用户信息包括用户年龄、性别、购买力、购买偏好等等。
2.5 下游任务
我们在之前的任务中学习到了用户的通用表示了,可以用这个表示向量来进行其他下游任务了。
2.5.1 CTR预估
CTR预估网络的输入有两部分内容,一部分就是我们在之前的任务中学习到的用户的通用表示,另一个部分是item feature对应的embedding,这个在之前的embedding层也提到了,这部分是跟embedding层共享的,item的向量表示,是商品id、店铺、品牌、品类、标签,对应的embedding长度分别是32、24、24、16和28。这里我有点纳闷,32+24+24+16+28 = 124 ,为什么写的是128啊。。
CTR预估的损失函数为:
2.5.2 Learning to Rank
l2r任务的输入也是两部分,一部分是用户的通用表示向量,另一部分是ranking feature,这部分包括:
l2r的loss:
这里yi取值为1或-1,代表第i个样本的label,ni是基于不同的行为类型的样本权重,通常,权重由某些业务规则预先定义,例如,购买实例的权重通常高于点击实例。ri是m维的排序特征,weight(repi;θ)是上图结构中左边部分的输出。也是m维的。这里m为26。
这里我是不知道为什么损失函数是这么设计的,可能是排序模型里面设计的特殊损失函数吧。
2.5.3
Price Preference Prediction(PPP) 用户价格偏好预测
论文将用户价格偏好预测视为多分类任务。 p = {p1,p2,... ,pk}表示商品价格的k类,每个pi表示价格范围。 p1是最便宜的范围,而pk是最昂贵的范围。 该任务实际上是在预测用户要购买的商品的价格范围。损失函数为:
2.5.4 Fashion Icon Following Prediction用户达人偏好预测FIFP
看到这里我们已经知道了下游任务的网络结构是怎么构建的了,一部门是前面学习到的用户的通用表示,另一部分就是那个任务要预测的东西的特征,比如这里,这部分的特征就是Fashion Icon Feature。
我们不需要知道这个任务具体是干嘛的,这个是在淘宝网的一个预测任务,我们要学习的是这部分的特征是怎么输入到网络的,损失函数通过是logloss。
2.5.5 店铺偏好SPP
老三样了,输入是两部分,用户的通用表示,该任务需要的特征,模型的损失函数logloss。
三、实验结果
3.1 多任务学习 vs 单任务学习
3.2 DUPN VS Baselines
3.3 迁移能力
3.4 A/B test
四、多任务模型的使用
4.1 增量学习
随着时间和用户兴趣的变化,ID特征的Embedding需要不断更新,但不能每次都重新训练模型,因为这大概需要耗费4天左右的时间。因此通常的做法是每天使用前一天的数据做增量学习,这样一方面能使训练时间大幅下降,能在一天内完成;另一方面可以让模型更贴近近期数据。
4.2 模型拆分
ctr预估中,如果每个user-item对都计算一次用户的通用特征表示的话,那么一个用户,1w个item就需要计算十万次这个通用向量。在线上预测的时候,当然是不可能计算十万次的,实际上我们是将这个向量计算出来就保存下来了,在其他下游任务计算的时候,直接使用这个向量就行。