论文：

论文地址：https://arxiv.org/pdf/1805.10727.pdf

论文题目：《Perceive Your Users in Depth: Learning Universal User Representations from Multiple E-commerce Tasks 》

一、背景

在上一篇文章中，我们介绍了阿里巴巴用多任务学习的方式来预估CVR，消除了样本选择偏差和数据稀疏两个问题。可以看到阿里是很喜欢多任务学习的，那么为什么要使用多任务学习呢？或者说，多任务学习相比于单任务学习有哪几方面的优势呢？总结一下两点：

1.首先，多任务模型相比于单任务模型可以共享一部分网络结构，减少了模型的大小，可以更快并且花费更少的在线CPU成本，对于在线服务更加友好，可以保证线下服务性能的稳定性，支撑更大的QPS。同时，对于存储资源也会大大的节省，因为我们共享了embedding，所以所有的子任务共享的了一份embedding，只需要保存一份就可以。

2.其次，用多任务学习的方式来学习用户和物品的表示更加立体可靠的通用表示，这些学习到的embedding可以方便的在其他任务中使用。

基于以上两点，阿里巴巴提出了DUPN，下面我们就来介绍一下吧。

二、DUPN模型结构

先看一下模型的结构，从直接上来看，整个模型结构是以LSTM为主的，用LSTM来对用户的行为序列建模，然后用Attention机制来整个学习到的向量。可以看到，DUPN一共分为五层，用户行为序列层、Embedding层、LSTM层、Attention层、多任务层。接下来，我们来一一介绍这几部分。

2.1 用户行为序列层

模型的输入是用户的行为序列x = {x1,x2,...,xN},行为序列中的每一个行为都有两部分组成，例如第i个行为xi被表示成,item-i表示这次行为对应的淘宝中的商品，不仅仅是商品本身，还包含商品的一些side-information，比如店铺ID、品牌、品类、标签等等。propertyi表示此次行为的一些属性，比如场景（scenario，如搜索、推荐、聚划算等等场景）时间、类型（点击、购买、加入购物车等等)。商店ID，品牌，类别和商品标签的通用特征用于建模其共同因素，而商品ID的个性化特征用于建模特殊因素。对于长尾物品和新物品，通用功能将起主导作用。对于流行商品，个性化功能将占主导地位。

2.2 Embedding层

这个没什么好解释的，对于每一个特征分别作embedding操作：

没一个类别的embedding大小在图里都有，可以看到这些大小都不算很大，基本是都在32以下。对item feature来说，包括商品id、店铺、品牌、品类、标签，这些在淘宝中词表的大小分别为1G、1M、10M、1M、100K，对应的embedding的长度分别为32、24、24、16和28。这些有的是multi-hot的，比如商品可能会有多个标签，这些会通过pooling操作进行转换。

而对于行为property来说，场景、时间和类型的embedding的长度均为16。因此最终每一个行为的Embedding长度为32 + 24 + 24 + 16 + 28 + 16 * 3 = 172。

这里的向量长度其实不算很大，可能是为了避免太长的向量会对模型造成过拟合。

2.3 LSTM层

LSTM结构在很多地方都有详细的描述，在这里我们就直接给出计算过程了：

跟LSTM的计算方式是一样的，不要看输入是两个向量p跟e，其实如果把两个合起来看就是一个向量了。

这里的每个时间步的输入向量的维度是128.

2.4 Attention层

其中at是每个隐藏状态ht的权重，attention（·;ω）是attention网络，它是两层全连接网络，并接受查询向量q，用户向量u，第t个隐藏状态ht和行为属性pt作为输入。

可以看一开始模型结构图，可以看到attention层出来后的向量这么组成的：

经过attention层得到的128维的向量，拼接上128维的用户向量，最终得到一个256维向量作为用户的表达。用户信息包括用户年龄、性别、购买力、购买偏好等等。

2.5 下游任务

我们在之前的任务中学习到了用户的通用表示了，可以用这个表示向量来进行其他下游任务了。

2.5.1 CTR预估

CTR预估网络的输入有两部分内容，一部分就是我们在之前的任务中学习到的用户的通用表示，另一个部分是item feature对应的embedding，这个在之前的embedding层也提到了，这部分是跟embedding层共享的，item的向量表示，是商品id、店铺、品牌、品类、标签，对应的embedding长度分别是32、24、24、16和28。这里我有点纳闷，32+24+24+16+28 = 124 ，为什么写的是128啊。。

CTR预估的损失函数为：