embedding在工业界应用以及训练的tricks

embedding在工业界是非常常用的手段。例如双塔模型学习用户与内容的隐式向量表达,其产出可以用于召回,粗排,精排模型等多个阶段。

以下为一些使用的细节:
1、大规模粗排用离线计算的embedding加速,可以扩大粗排规模
2、利用预训练的embedding为模型提供更好的用户表达(一些模型对于某目标的预测不会使用用户的全量行为特征,所以能获取其在全量行为下计算的embedding作为初始化便能提升效果)这与CV和NLP领域的pre training + fine turning是一样的方法
3、对于很多离散值,使用embedding输入dnn更有利于学习
4、对于一些连续值,也使其离散化后再用emb输入dnn
5、一些长尾用户的embedding更新几率很小,会导致其学习不充分。利用用户一些特征的刻画做用户分桶或聚类可以提升其学习效率(airbnb kdd1028)
6、对embedding层做专门的loss函数(multi-task),只更新其对应参数梯度,能加快其收敛。
7、也可以对一些过于低频的特征值做过滤,能减少参数空间,同样能提升其emb的收敛速度,避免过拟合
8、可以利用embedding做特征扩展。通过embedding做特征“扩展”
9、建立单独的网络,仅对embedding层进行训练(参见狼厂的abacus)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • 喀赞其是伊宁小城最深处的文化符号,那些小巷和平房里散发出的烟火气息是这个城市最真实的味道。 自由,平和,悠闲,...
    蔡立鹏阅读 540评论 0 0
  • 在省道以南,跨过夏季浮萍碧绿的池塘,到了冬天之后,塘上就只剩这些野树和还坚守着的横死在小池塘里的枯茭白了。冬雨又冷...
    maruco阅读 478评论 0 1
  • 环境 mac版本10.12.6 Sierra 原本想升级cocoapods,但是发现需要先升级gem,升级ge...
    MacXin阅读 1,933评论 0 1

友情链接更多精彩内容