DNN召回
这里指的是youtube的Deep Neural Network for YouTube Recommendation论文里提到的模型,论文里同时提出了召回和排序,这里先只介绍召回。大厂毕竟还是nb啊,看起来其实挺简单,为什么别人提不出来呢?细节满满,意味着坑也满满。1.论文链接 2.简书上的靠谱分享 3.我之前在简书上的简单一提
直接上图:
模型很简单,先看输入。左下蓝色的是item embedding,是用item的id从random初始化的emb_matrix里look_up出来的,一个用户(或者说一条样本更准确些)的若干个item平均一下,进入dnn;
绿色的是用户搜索的query,跟item本质上没什么不同,也是平均一下进入dnn;
再其他concat到一起的是各种各样的特征,这里主要是用户的特征。想一下为什么不用item的特征?因为item这么多,你怎么知道加哪个item的特征啊!当然也许是有什么巧妙特征的,只是实践里没这么麻烦过。有了输入,经过三层网络,就是输出,把这个模型当做是超大规模的分类模型,每一个item可以理解为一个类。
问题来了。
输入的emb直接做均值合理吗?
我隐约记得这是论文里指出的,好像是尝试过add/concat效果都不如average。在实践中还是用了加权平均(但没有跟直接平均对照试验过,每次改动的地方都不止一个),权重的设计思想就是跟(观看后的)天数成反比、跟观看完成率成正比,公式是:
weight_avg_watch = tf.exp(-self.batch_watchDays/7.0) * self.batch_watchProp
那求均值的视频/query个数要固定吗?
其实没必要固定。在实践中,为了简单起见,训练的时候样本都是固定长度的,而推理(后面会再说一下)的时候就是不固定长度的了,有多少算多少(但设置max),然后求均值。
有梯度消失或梯度爆炸的问题吗?
这是有的,一看三层relu就知道有问题了,实践中改成了leakyrelu,有改善。其他的方法比如clip、BN、lr decay等都可以尝试。
对时间怎么建模?example age是什么?
example age就是target item在“当前”的年龄( the age of the training example ),没有那么多弯弯绕,因为youtube用户对新视频更加偏好,即使相关性不太好也可以.
超大规模的分类,计算资源够用吗?
超大规模的分类,实践中通常是几百万,计算资源开销太大,光算loss都要半年,所以不能这样干。我们用采样的方式构造负样本,TensorFlow牛逼,tf.nn.log_uniform_candidate_sampler这个函数的思想就是给定正样本,在剩下的样本里,越是靠前的越容易被抽出来当负样本,这叫按照 log-uniform (Zipfian) 分布采样。一般采五六百吧。注:vocab是按照频率排的,因此越靠前,就是越热门的item。vocab怎么得到的?可以在产出样本的时候顺便产出。贴一段代码:
import org.apache.spark.ml.feature.{CountVectorizer, CountVectorizerModel}
...
...
val watchDF = sqlContext.createDataFrame(sampleWatch).toDF("uid", "watch")
val watchCvModel: CountVectorizerModel = new CountVectorizer()
.setInputCol("watch")
.setOutputCol("watch_fea")
.setVocabSize(watchVocabSize)
.setMinDF(watchVocabMinFreq)
.fit(watchDF)
val watchVocab = watchCvModel.vocabulary.zipWithIndex
val formatWatchVocab = watchVocab.map(x => s"${x._1}\t${x._2}")
sc.parallelize(formatWatchVocab, 1).saveAsTextFile(outputWatchVocab)
那直接用展示未点击的来做负样本不好吗?
不好。一个是麻烦。另一个是,展示未点击的,其实是排序模型认为很好的选项了,直接用label=0来打击它并不好,一般用户对它是有一定的兴趣的。还有就是,要predicting future watch,而不是predicting held-out watch,不要偷窥未来。
要如何构造样本?上面两段说明了负样本如何选择,其实就是为了在这里说样本如何选择。负样本是采样得到的,那构造样本的时候只要记录input和正样本就好了。正样本是什么?点击的?观看的?还是观看完成度高于某个值的?这里需要根据业务来定,比如长视频,甚至还需要你将用户分段的观看累计起来。input是什么?我们有了用户的观看或者行为历史,既可以一个用户产出多条样本,也可以一个用户产出一条样本,这两个选项又分别有多种不同的方法。比如,一个用户的正向行为list是abcdefg,那我的样本可以是(abcd->e,abcd->f,abcd->g,bcde->f,bcde->g)。这个选择比较自由,也没有对比过优劣,应该是差不多的。
用户特征选什么比较好?
用户特征使用静态特征(年龄、性别、居住地...)比较好,因为统计特征本质上只是区分了用户是否活跃,这不是我们想要的。或者其他各种途径得到的用户emb特征,也可以加进去试试。
有什么其他的改进吗?
- 例如加入attention,这个实践中效果有限,也有分享说效果很好,应该是业务不同导致的。
- 例如将item的某些属性(uploader、tag等)与item的emb concat到一起,再计算平均值。这其实相当于又加了若干个query。
- 使用LSTM替换average是否有效?基本没效果。
网络结构的代码可见 youtube-dnn-recall-structure.py
问题又来了。
上面一节说的主要是训练。这一节主要说线上服务。
那我要怎么提供线上服务啊?
- 这其实还有一个内部隐含的问题,就是谁是item的emb,谁是user的emb?我们看模型结构示意图,觉得item emb不是输入的吗?其实不是。网络上有人将输入的emb当做item,也取得了不错的效果,这是有可能的,但,确实不太对。说结论,user的emb是最后一层隐藏层h(激活后),item的emb就是这个隐藏层到softmax之前的权重矩阵W。为什么呢?因为y = Wh + b,如此才能显示出W和h之间的联系(这里其实有个问题,b存在的意义是什么?实践中前人的代码里写了b,但我觉得可能不需要b吧,只是后来没做实验了。)。另外,input的emb其实可以用其他方式得到的emb来初始化,例如item2vec的emb;并且,input的emb可以与W共享,同时更新,这样就不用矛盾选择哪个emb了。
- 线上召回可以有两种,一是II召回,也就是用item emb计算相似度,得到倒排,进而召回,这里可以看出我们在上一节的优化中concat了uploader等属性的好处,那就是同一个up的item之间天然的具有一定相似度;二是UI召回,也就是,将user存到couchbase/Aerospike里,将item用faiss训练为一个index,然后线上根据user查找相近的item。
加一个问题,UI召回里的相似度怎么算?为什么?II呢?
UI召回的相似度是用内积的,而不是余弦,这是因为网络训练的时候就是内积计算。II召回的相似度,内积、余弦、欧氏距离,都可以尝试,可以根据实际情况来决定,我在实践中是都用过,效果差不多,都还不错。但从理解上来说,余弦可能更科学一点,毕竟是同一空间?
再加一个问题,softmax的W要不要归一化?hidden要不要归一化?也就是说,user和item的emb需要归一化吗?从上文的理解来说,都行,这个意思是,你在训练的时候怎么做的,在用的时候就怎么做。如果你网络里归一了,使用的时候就归一,如果没有,那就不用,不然会起反效果(试验过的)。
插一个问题,faiss训练index的具体原理?faiss是一种高效的k-means聚类实现,facebook 牛逼(破音)!具体的我也没太了解过。安装可以看久远的过去,使用可以看简书大佬的分享。贴几句使用示例吧:
index = faiss.index_factory(dim, factory)
index.nprobe = nprobe
index.train(embedding_all)
index.add_with_ids(embedding_all, fid_all)
faiss.write_index(index, out_index)
好了,现在知道item的emb要训练index索引了,当然这个item emb在训练结束时候可以存下来。user的emb要怎么弄?一种方法是python来load模型然后推理一次,一种方法是手写前向然后推理。python的优点是简单,手写一般是用scala/java,优点是可以为后续的实时化做准备。贴一小段代码:
import breeze.linalg.{DenseMatrix, DenseVector, normalize}
...
...
def feedForward(x: DenseVector[Double],
w: Array[DenseMatrix[Double]],
b: Array[DenseVector[Double]]): DenseVector[Double] = {
val layer0 = w(0) * x + b(0)
val relu0 = layer0.map { e => if (e > 0) e else 0.0 }
val layer1 = w(1) * relu0 + b(1)
val relu1 = layer1.map { e => if (e > 0) e else 0.0 }
val layer2 = w(2) * relu1 + b(2)
val relu2 = layer2.map { e => if (e > 0) e else 0.2 * e }
relu2
}
dnn召回的效果指标都挺不错,展示占比也不低,是主要的召回源之一。实践中,user的emb存到cb,通常只存最新的,而item的index需要训练新旧两个版本,避免cb没刷完时user找不到item。