路由模型的深度与多样性探究

这篇文章是Google Brain关于路由模型异构结构和不同深度等因素的探究,收录于ICLR2019。文章关于topk选择的一些观点,对于后续的Switch Transformer研究有着一些影响。可以说这是谷歌大脑的大佬们在路由模型探索中的一些中间思考。

论文题目:《DIVERSITY AND DEPTH IN PER-EXAMPLE ROUTING MODELS》

论文地址:https://openreview.net/pdf?id=BkxWJnC9tX


摘要:

文章指出先前的路由模型相关工作都忽略了模型结构的多样性以及不同的路由决策。大佬们认为结构的多样性和路由的深度能够增强路由网络的表征能力。因此本文就是这两方面的尝试,并且在异构的结构上取得了35%的效果提升,在路由深度的探索上还待优化。


介绍:

神经网络用相同的方法处理每一个输入,这种静态的范式相比于人脑灵活处理感知输入显得很僵硬。因此基于输入的处理过程是否能够提升神经网络的表现?这种”专有“的处理过程能够提供更好的参数效率以及减少计算。

先前大部分工作利用一个网络路由不同的输入,使用大量的子单元或者专家来处理,对于某个输入只有部分专家是激活的。路由网络和专家的学习是同时进行的。

先前的路由模型都是由较小的同构网络组成,直观上来看,不同类型的输入样本应该适用于不同结构的处理单元。同时,路由决策一般小于五个。

因此这篇工作就是探究异构结构和路由深度的影响。实验结果表明,异构结构对于提升效果十分关键,但是更多的router决策由于优化困难效果不佳。


方法:

一种很自然的想法:定义一个超网包含很多的专家和路由网络。如下,相似的样本路由到相似的处理路径,不同的样本路由到不同的处理路径。

路由网络例子

将样本路由到well-matched的专家至关重要。需要另一个较小的router网络学习这种分发机制,并且router能够利用样本的中间态表示。

一种学习router的方法是强化学习,本文工作用的则是MoE文章的noisy top-k 门控网络:


门控网络

这种topk的运算方式,虽然引入了不连续的输入,但是梯度下降学习在noisy top-k门控网络表现很好。这也和之前QA工作上的经验相符合,有机会写一篇介绍下。

在MoE基础上,文中提出固定的k会容易使得网络过拟合。因此提出一种k淬火的trick:在最初的层激活比较大的k,接近分类层用更小的k,这和直观上低层coarse特征,高层elaborate特征想对应。对应比较粗的划分,可能需要多个专家的权重分配,到了上层更abstract的特征表示时,细致的划分只需要较少的专家权重分配。同时在实验上也取得比较好的效果。

还有个负载均衡的问题,假如初期某些专家表现优于随机初始化,那么gate就偏向于选择这部分专家,正反馈会使得专家的激活不均匀。因此对应MoE论文,加入了important loss正则化:

important loss

多样性:

先前MoE中专家仅是参数不同结构相同的结构是次优的。举了狗的例子,一张放大的狗图片需要完整图像的信息,而多目标中对狗的分析可能需要max-pooling这种操作滤过无关的信息。

先前有一些神经网络结构搜索模型同时更新网络结构和参数,这种one-shot模型就是异构路由模型的一种特殊case,只不过对于所有输入在超网中的路由路径都一致。异构路由模型可以很容易地通过增加task embedding输入从而拓展到多任务,就如同task-based 模型Pathnet一样。

模型结构如图:


模型结构图

模型总体是一个堆叠的cell结构,cell由堆叠的choice blocks组成。如右边结构所示,choice block需要选择哪些输入和哪些操作(卷积 池化 自身(skip connection))。与Bender工作不同之处在于1、每个样本的路由路径不同,one-shot结构搜索则是选择单个路径2、每一个cell是不同的,one-shot的结构中使用的是单个相同cell结构

路由深度:

随着网络的加深,模型的表现会有相应的提升。因此,路由模型也需要拓展到比较大的深度。计算消耗上来说,路由模型拥有block-sparse结构,只需激活部分专家进行稠密计算,所以从硬件来说是容易拓展的。

在一个简化的模型上,如果存在n个路由决策,同时每个决策选择E个专家,那么存在E^n 条路径。先前Shazeer的MoE工作关注于增大E,我们对于增加路由决策更感兴趣,因为路径数量会指数级增长。

但是随着路由深度n的增长,选择也会变得越来越多,优化routing model会很困难。所以工作的目的是在现有技术下是否能够灵活地拓展路由深度n,而是需要额外地研究。


相关工作:

路由模型归属于条件计算类中,可以在不增加计算消耗的同时提升模型容量。本文工作类似于Rosenbaum的多任务学习路由工作。不同点在于异构的专家以及更深的路由。

例如NAS之类的自动搜索技术在ImageNet上取得很好效果。但是这类结构搜索计算消耗大,并且最终还是一个静态的模型。

还有一类树结构的循环神经网络和参数预测模型。对于每一个输入利用循环神经网络匹配一个特定的树结构,但是学习过程不允许结构改变。参数预测模型相比于对于所有样本利用一套固定的参数,推理出一系列基于样本的参数。虽然参数变化,但是结构是不变的。在多样性路由模型中,模型结构变化的同时参数是静态的,如何结合两种idea是未来的工作。


实验:

在研究异构性和路由深度之前,作者先在MNIST上验了一把noisy top-k gating的效果。左边的图展示了,相同类别的样本趋向于路由到相同pair的专家。右图展示了每个专家上处理样本的标签分布是不同的,能够体现一定的specialization。并且加入normalization能够提升结果的稳定性,这也和之前product key网络的经验不谋而合。

MNIST数据集router效果图

异构性:

以Omniglot作为routing model的benchmark,数据集包含了50种不同的字母,其中每个字母由一系列灰度为20的105*105手写用例组成。将每个字母的预测视为单独的任务,因此构成多任务预测任务。由于baselingCMTR(一种层次化进化算法)的训练时间与任务数呈线性关系,因此在划分数据集的时候只基于20个字母。

路由模型由一个共享的卷积层和八个专家层组成,每一层拥有48个卷积核。每个任务配有独立的linear readout layer并且基于任务的表示会额外地输入每个router。

Omniglot benchmark 效果

异构的路由模型相比于SOTA减少了35%的误差。CMTR有3M参数而本文的模型只有1.8M参数。说明了通过淬火的topk trick,本文的routing模型能够在low-resource task表现很好。

消融实验中,通过固定三种配置的专家组来做对比。

Omniglot 消融实验

结果证明,diverse architectural components简化建模并且提升模型效果。

在不同数据集上的额外消融实验,最终结果很一般。最终的结果在不同数据集上效果不同,并且和数据大小也没有太大关系。作者在文中的结论是增加不同的运算操作以及增加重要计算操作的复制是一种直接提升模型效果的方法。这个地方其实不太明白,可以看到结果仅使用3x3的卷积核效果很不错,异构的专家层效果相当,但是并没有给出diversity&cloning的效果,个人觉得这个结论有点牵强。

其他数据集上的异构消融实验

routing depth:

论文给出了在CIFAR-10上的效果,结果上看起来routing model效果甚至劣化了。比如在cell nums=6,filters nums=64的配置下,routing model的效果相当于all-on C=6,F=32的效果,然而计算量是2x,对比于搜索出的one-shot模型,计算量甚至是3.5x。而且当C增大到12时,效果甚至劣化了。作者认为复杂的routing优化导致了效果的劣化,类似于noisy top-k gating这样的router方法是经验性的而无法学习出很强的solutions。


routing depth效果图

结论:

在结构异构上,本文的实验在模型最终效果上取得了重要的效果?到那时路由深度的优化仍然是不确定的。

作者认为开辟static model的痛点领域是routing model所需要的。并且预言了在超大规模任务上是routing model发力的领域(switch transformer在两年后不负众望),并且对routing models的优化持乐观态度。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,047评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,807评论 3 386
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,501评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,839评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,951评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,117评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,188评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,929评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,372评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,679评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,837评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,536评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,168评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,886评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,129评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,665评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,739评论 2 351

推荐阅读更多精彩内容