DIN,Deep Interest Network,深度兴趣网络。论文的关键在于对用户历史行为的embedding向量的改进。模型结构如下:
基本DeepCTR网络结构和DIN网络结构.png
其他的工程改进还有:
- 对正则化进行改进。由于商品id维度太大了,这类特征对应的embedding矩阵表是巨大的,模型参数太多,如果不加正则化则模型很快过拟合(论文中也指出不加regularization模型在第一个epoch后就过拟合了)。但是直接加上传统的L2正则是不现实的,因为加入L2正则后,每个batch都要对整个embedding矩阵表进行更新,这样会带来过多的计算量。DIN提出了新的正则化方式,只对batch中参与了前向计算的embedding向量进行更新,此时有
。其中,
表示特征空间维度(也就是embedding矩阵表的行数),
表示batch-size,
表示当前batch第m个样本中是否出现了第j个特征id,从而决定是否要对该特征id对应的embedding向量
加上正则化。
- 对激活函数进行改进。DIN对PReLU进行改进,提出了Dice。PReLU是带参数的ReLU,公式如下:
其中
是可学习的参数,
根据输入
取0或者1。当
固定时,PReLU就是ReLU或者leakyReLU。PReLU的不足在于
是硬分配,激活函数的分界点是固定的,所以Dice对PReLU做了一点改进,保证函数的分界点是自适应的。Dice公式如下:
其中,在训练阶段
和
是输入batch的均值和方差,测试阶段则是所有batch均值和方差的滑动平均。当
和
都是0时,Dice就是PReLU了。
- 评估标准的改进。Metrics的不同,模型最后达到的效果也是不一样的。一般的CTR都是选择AUC作为评估标准,但是不同用户的点击习惯是不一样的,为了消除用户偏差对模型性能评估的影响,DIN选择对每个用户单独计算AUC,最后再计算整体AUC。新的AUC计算公式如下:
其中
表示第i个用户在测试集中出现的次数,
表示第i个用户的传统AUC值。传统AUC方式是将测试集中的所有预测结果进行排序计算AUC值,新的AUC计算方式是将测试集中的样本按照用户拆分,对每个用户的预测结果进行排序计算AUC值,这样计算的AUC值就能更好的反映模型对于不同用户的预测效果,最后再将这些AUC值进行加权求和得到最终模型的整体评估效果。