工业推荐领域与学术领域研究的方向差异

现状:
当计算机的算力不断发展,甚至大规模GPU,FPGA的集群使得海量的计算资源唾手可得的时候。深度学习在语音识别,图像识别等领域已经可以说是大放异彩,瞬间打败了一众traditional method。近年,BERT的出现也让深度学习在NLP领域打破多个纪录,更新了数个state of art。而在工业界一些最重要的领域(给公司盈利,创造新的产品模式的算法),比如推荐,广告(也可以看作推荐广告)等领域。深度学习也可以带来很显著的提升(跟传统方法,LR/FM等相比),但远远不如那几个学术领域带来的变革之大,which可以说是将效果提升到了另一个次元。

为何有此般差异?究其原因:
1、目前看来,深度学习对低维连续稠密的数据会有更好的学习能力。而工业推荐领域的数据大部分是高维稀疏的数据。
1.1、高维稀疏数据的训练在工程上本身就会面临很大的问题。(百亿级别的特征在特征,参数存储,训练预估的效率上都需要从工程上去优化和攻克)
1.2、高维特征构建的模型由于参数量过大,很容易过拟合(参考VC dimension)。同时为了优化其工程性能,设计的特征准入,特征淘汰的策略也存在很大不确定性。

2、特征刻画的片面,在CV,NLP等领域,所有的特征,已经在图片像素和文本文字中蕴含了。而针对用户的推荐系统,我们可能很难获得一些关键信息,比如用户所在地此时的天气,用户所在场所的人流密度,甚至用户此时的心情。这些信息有的难于获取,有的可能还难于数值化准确地刻画。
2.1、从另一个角度来说,也可以说我们要预估的目标在当前的特征表达集上,有较大的随机性(不可预估性),可以参见贝叶斯误差率(bayes error rate)。当你给定特征集时,BER为假设数据无限的情况下,从统计能获得的最小误差。此误差也是你的机器学习方法能达到的理论最小值(如果你知道真实的分布参数【当然你都知道了就没有机器学习的事儿了】,那么用贝叶斯公式计算的概率作为决策依据即被称为为最小贝叶斯错误率决策)。比如你知道真实集合中叫Sam的人有80%的几率是美国人。given这个人的名字Sam(名字在这里就是特征集),问你此人是否为美国人,你回答是,那么这个答案仍有20%的几率是错误的。这个随机误差在仅有其名字叫Sam这一个刻画特征下是不可能消除的,此即为BER。当前机器学习落地的方法中,一般都会加入userid,itemid这类的特征(one hot),这些特征的加入理论上能使模型能在训练集上达到非常低的误差甚至0误差(理论上你输入的特征维度足够,并且在训练集上有足够区分度,就能在此集合【训练集】达到很低的误差),但是问题是此类特征基本没有泛化能力(实际上,我们在使用中运用到的,更多的是他们提供的更多的是记忆能力),非常容易导致过拟合,若在有Regularzation的情况下,训练集误差很难降到很低。当对这类id特征使用embedding等手段进行抽取时,实际上是对用户(商品)的特征进行了一个low rank的假设,希望用户的特性在一个低维的表达上具有泛化能力,由于限制了一个较小的维度,所以上层weight的参数量有所减少,整体的自由变量数(包含embeding参数量)也有数量级的下降。但是在实际运用中,这样训练仍有较高的overfitting风险。从经验看来,在多数工业界落地的场景中,ctr,cvr预估,时长预估等任务当中,都有不同程度的迹象让我们能猜测出其特征数据集本身有着并不小的BER。也许我们使用LR,FM的时候,误差已经离当前的BER下限不远了,所以工业界会拿很多的精力去刻画用户商品的特征,挖掘特征。

撇开差异,寻其互通之处:
上面主要说了一些工业界和学术界所面临的和需要解决的不同问题。这些根本性的差异也许是无法消除的。但是如果我们将DNN的底层视作特征的抽取器,如CV中像素间的关系用CNN抽取,NLP中文字的关系特征用attention抽取,那么工业界无碍乎是特征本身的形式更多样,面对那些类似形式的特征,也可以学习学术界特征抽取的方法。实际上工业界也确实汲取了很多学术界的成果,在实践中也运用了不同的结构对特征进行抽取。
近些年来,GAN,RL在学术界的成果,也启发了不少推荐广告项目在工业界的研究和试验方向。

工业界一些比较受关注的研究:很多都偏向工程方案的设计与优化
1、大规模机器学习系统(其特征存储,离线训练,在线训练,自动调参,自动特征筛选淘汰 。。)
2、大规模实时召回,排序系统(模型线上预估,近线预估,向量召回,多目标融合排序List-wise优化。。)
3、用户画像的挖掘,存储。(用户特征表达,实时行为数据,兴趣点挖掘,兴趣点关联知识图谱。。)
4、产品与机制设计(广告拍卖机制gsp,vcg,预算平滑控制,推荐系统生态评估【多样性,新鲜度,热点性】。。)

工业界环境做研究最主要的问题:
由于工业界所面临的问题是各种各样的,每个场景拥有的数据,特征的差异也非常的大,很难设计总结出标准化,具有概括性的求解问题(如CV,NLP等都有标准数据集)。在实践中也是如此。就比如说,我设计了一个ctr模型,可能在百度广告的产品线上效果不错,有一定收益。但是换到阿里的广告产品,面对不一样的数据特征分布,效果也可能会不尽人意。同理,阿里的DIN在b站的电商上效果也不一定好,b站没有那么多样化的产品,且业务规模小也很难拿到用户整个兴趣的数据(比如用户在站外,别的电商平台的搜索便无法获得,阿里平台足够大,有足够多足够精细完整的用户数据)。

所以,当我们在设计优化工业界算法产品的时候,更多地要根据场景,和当前的环境(拥有的特征,数据,样本)来进行设计和优化,思考如何去跟好地理解用户,理解用户的行为逻辑,才能更好地优化产品。并没有能解决一切问题的答案。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,313评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,369评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,916评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,333评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,425评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,481评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,491评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,268评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,719评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,004评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,179评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,832评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,510评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,153评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,402评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,045评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,071评论 2 352

推荐阅读更多精彩内容