推荐系统入门实践(3)召回之youtube-dnn

DNN召回

这里指的是youtube的Deep Neural Network for YouTube Recommendation论文里提到的模型,论文里同时提出了召回和排序,这里先只介绍召回。大厂毕竟还是nb啊,看起来其实挺简单,为什么别人提不出来呢?细节满满,意味着坑也满满。1.论文链接 2.简书上的靠谱分享 3.我之前在简书上的简单一提

直接上图:

image.png

模型很简单,先看输入。左下蓝色的是item embedding,是用item的id从random初始化的emb_matrix里look_up出来的,一个用户(或者说一条样本更准确些)的若干个item平均一下,进入dnn;
绿色的是用户搜索的query,跟item本质上没什么不同,也是平均一下进入dnn;
再其他concat到一起的是各种各样的特征,这里主要是用户的特征。想一下为什么不用item的特征?因为item这么多,你怎么知道加哪个item的特征啊!当然也许是有什么巧妙特征的,只是实践里没这么麻烦过。有了输入,经过三层网络,就是输出,把这个模型当做是超大规模的分类模型,每一个item可以理解为一个类。


问题来了。

输入的emb直接做均值合理吗?
我隐约记得这是论文里指出的,好像是尝试过add/concat效果都不如average。在实践中还是用了加权平均(但没有跟直接平均对照试验过,每次改动的地方都不止一个),权重的设计思想就是跟(观看后的)天数成反比、跟观看完成率成正比,公式是:

 weight_avg_watch = tf.exp(-self.batch_watchDays/7.0) * self.batch_watchProp 

那求均值的视频/query个数要固定吗?
其实没必要固定。在实践中,为了简单起见,训练的时候样本都是固定长度的,而推理(后面会再说一下)的时候就是不固定长度的了,有多少算多少(但设置max),然后求均值。

有梯度消失或梯度爆炸的问题吗?
这是有的,一看三层relu就知道有问题了,实践中改成了leakyrelu,有改善。其他的方法比如clip、BN、lr decay等都可以尝试。

对时间怎么建模?example age是什么?
example age就是target item在“当前”的年龄( the age of the training example ),没有那么多弯弯绕,因为youtube用户对新视频更加偏好,即使相关性不太好也可以.

超大规模的分类,计算资源够用吗?
超大规模的分类,实践中通常是几百万,计算资源开销太大,光算loss都要半年,所以不能这样干。我们用采样的方式构造负样本,TensorFlow牛逼,tf.nn.log_uniform_candidate_sampler这个函数的思想就是给定正样本,在剩下的样本里,越是靠前的越容易被抽出来当负样本,这叫按照 log-uniform (Zipfian) 分布采样。一般采五六百吧。注:vocab是按照频率排的,因此越靠前,就是越热门的item。vocab怎么得到的?可以在产出样本的时候顺便产出。贴一段代码:

import org.apache.spark.ml.feature.{CountVectorizer, CountVectorizerModel}
...
...
    val watchDF = sqlContext.createDataFrame(sampleWatch).toDF("uid", "watch")
    val watchCvModel: CountVectorizerModel = new CountVectorizer()
      .setInputCol("watch")
      .setOutputCol("watch_fea")
      .setVocabSize(watchVocabSize)
      .setMinDF(watchVocabMinFreq)
      .fit(watchDF)
    val watchVocab = watchCvModel.vocabulary.zipWithIndex
    val formatWatchVocab = watchVocab.map(x => s"${x._1}\t${x._2}")
    sc.parallelize(formatWatchVocab, 1).saveAsTextFile(outputWatchVocab)

那直接用展示未点击的来做负样本不好吗?
不好。一个是麻烦。另一个是,展示未点击的,其实是排序模型认为很好的选项了,直接用label=0来打击它并不好,一般用户对它是有一定的兴趣的。还有就是,要predicting future watch,而不是predicting held-out watch,不要偷窥未来。

要如何构造样本?上面两段说明了负样本如何选择,其实就是为了在这里说样本如何选择。负样本是采样得到的,那构造样本的时候只要记录input和正样本就好了。正样本是什么?点击的?观看的?还是观看完成度高于某个值的?这里需要根据业务来定,比如长视频,甚至还需要你将用户分段的观看累计起来。input是什么?我们有了用户的观看或者行为历史,既可以一个用户产出多条样本,也可以一个用户产出一条样本,这两个选项又分别有多种不同的方法。比如,一个用户的正向行为list是abcdefg,那我的样本可以是(abcd->e,abcd->f,abcd->g,bcde->f,bcde->g)。这个选择比较自由,也没有对比过优劣,应该是差不多的。

用户特征选什么比较好?
用户特征使用静态特征(年龄、性别、居住地...)比较好,因为统计特征本质上只是区分了用户是否活跃,这不是我们想要的。或者其他各种途径得到的用户emb特征,也可以加进去试试。

有什么其他的改进吗?

  • 例如加入attention,这个实践中效果有限,也有分享说效果很好,应该是业务不同导致的。
  • 例如将item的某些属性(uploader、tag等)与item的emb concat到一起,再计算平均值。这其实相当于又加了若干个query。
  • 使用LSTM替换average是否有效?基本没效果。

网络结构的代码可见 youtube-dnn-recall-structure.py


问题又来了。

上面一节说的主要是训练。这一节主要说线上服务。

那我要怎么提供线上服务啊?

  • 这其实还有一个内部隐含的问题,就是谁是item的emb,谁是user的emb?我们看模型结构示意图,觉得item emb不是输入的吗?其实不是。网络上有人将输入的emb当做item,也取得了不错的效果,这是有可能的,但,确实不太对。说结论,user的emb是最后一层隐藏层h(激活后),item的emb就是这个隐藏层到softmax之前的权重矩阵W。为什么呢?因为y = Wh + b,如此才能显示出W和h之间的联系(这里其实有个问题,b存在的意义是什么?实践中前人的代码里写了b,但我觉得可能不需要b吧,只是后来没做实验了。)。另外,input的emb其实可以用其他方式得到的emb来初始化,例如item2vec的emb;并且,input的emb可以与W共享,同时更新,这样就不用矛盾选择哪个emb了。
  • 线上召回可以有两种,一是II召回,也就是用item emb计算相似度,得到倒排,进而召回,这里可以看出我们在上一节的优化中concat了uploader等属性的好处,那就是同一个up的item之间天然的具有一定相似度;二是UI召回,也就是,将user存到couchbase/Aerospike里,将item用faiss训练为一个index,然后线上根据user查找相近的item。

加一个问题,UI召回里的相似度怎么算?为什么?II呢?
UI召回的相似度是用内积的,而不是余弦,这是因为网络训练的时候就是内积计算。II召回的相似度,内积、余弦、欧氏距离,都可以尝试,可以根据实际情况来决定,我在实践中是都用过,效果差不多,都还不错。但从理解上来说,余弦可能更科学一点,毕竟是同一空间?

再加一个问题,softmax的W要不要归一化?hidden要不要归一化?也就是说,user和item的emb需要归一化吗?从上文的理解来说,都行,这个意思是,你在训练的时候怎么做的,在用的时候就怎么做。如果你网络里归一了,使用的时候就归一,如果没有,那就不用,不然会起反效果(试验过的)。

插一个问题,faiss训练index的具体原理?faiss是一种高效的k-means聚类实现,facebook 牛逼(破音)!具体的我也没太了解过。安装可以看久远的过去,使用可以看简书大佬的分享。贴几句使用示例吧:

    index = faiss.index_factory(dim, factory)
    index.nprobe = nprobe
    index.train(embedding_all)
    index.add_with_ids(embedding_all, fid_all)
    faiss.write_index(index, out_index)

好了,现在知道item的emb要训练index索引了,当然这个item emb在训练结束时候可以存下来。user的emb要怎么弄?一种方法是python来load模型然后推理一次,一种方法是手写前向然后推理。python的优点是简单,手写一般是用scala/java,优点是可以为后续的实时化做准备。贴一小段代码:

import breeze.linalg.{DenseMatrix, DenseVector, normalize}
...
...
  def feedForward(x: DenseVector[Double],
                  w: Array[DenseMatrix[Double]],
                  b: Array[DenseVector[Double]]): DenseVector[Double] = {
    val layer0 = w(0) * x + b(0)
    val relu0 = layer0.map { e => if (e > 0) e else 0.0 }
    val layer1 = w(1) * relu0 + b(1)
    val relu1 = layer1.map { e => if (e > 0) e else 0.0 }
    val layer2 = w(2) * relu1 + b(2)
    val relu2 = layer2.map { e => if (e > 0) e else 0.2 * e }
    relu2
  }

dnn召回的效果指标都挺不错,展示占比也不低,是主要的召回源之一。实践中,user的emb存到cb,通常只存最新的,而item的index需要训练新旧两个版本,避免cb没刷完时user找不到item。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,444评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,421评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,036评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,363评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,460评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,502评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,511评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,280评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,736评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,014评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,190评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,848评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,531评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,159评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,411评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,067评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,078评论 2 352