稀疏门控多专家网络MOE

最近需要做MOE相关的工作,简单分析记录下Hinton团队2017ICLR上发表的论文

论文题目:《Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer》

论文地址:https://arxiv.org/abs/1701.06538


背景介绍:

随着深度学习的发展,数据规模和模型容量已经是深度学习的关键因素。传统的深度学习模型中,对于每一个样本输入,完整的模型都需要被激活。随着数据和模型的扩大,这样的开销是二次的。因此,引入条件计算的概念,即通过动态激活部分神经网络,从而在增加模型参数量的情况下,而不增加计算量。

但是条件计算提出以来,面临着几个困境:

1.现代的计算机硬件,尤其是GPU,精通计算操作而不擅长分支。因此先前很多的工作每个门控制大chunk网络以减少分支。

2.条件计算会减少batch size。

3.网络带宽是瓶颈。

4.需要设计特定的损失函数,Bengio先前的工作就设计了三种loss,这些loss的设计会影响模型的效果和负载均衡。

5.现有的相关工作都是在小数据集上的小模型实验。


方法:

提出稀疏门控的多专家混合网络,通过一个可学习的门控网络来稀疏地选择专家。


相关工作:

介绍了先前机器学习&深度学习领域的一些专家网络的工作,但是这些网络都是偏上层的专家结合,每个专家网络其实是一个完整的模型。而该论文的工作实际上是将MOE做成一个通用的网络模块,同时作为一种实际的方式来控制模型的容量。


模型结构:


如上公式,模型输出就是通过门控网络G来赋予不同专家E的输出不同权重。文中提到,如果专家的数量过多,也可以构建多层的MOE结构。

这里文中有一段对于MOE结构的理解。在MOE中,专家网络是前馈神经网络类似于参数化的权重矩阵,而对于多个专家激活的情况就对应于一种block-wise的dropout结构。


门控网络:

简单的softmax网络:


有噪的topk网络:


·通过topk选取前k个专家,其余专家的系数为0。稀疏门控的设计能够节省计算量。

·通过加入噪声(其中噪声权重矩阵是可学习的)来控制负载均衡。


解决问题:

batch size的问题:简单来说,假设batch size为b,从n个专家中选取topK个。由于稀疏激活的原因,每个专家接收的样本数是k*b/n << b,因此会造成batch size减小。

同步的数据和模型并行:控制每一张卡上只有一个专家网络,通过门控网络实现数据分发到哪个专家网络。该方法控制每张卡上内存和通信消耗几乎一致,因此只需要增加卡的数量d,就可以等比例的增大batch size。

卷积性:网络的每一个时间步的MOE都相同,如果把LSTM的多时间步拆开,相当于形成一个很大的batch输入,因此也可以增大batch size。

其他一些优化显存的方法增大batch size。

网络带宽问题:通过增大隐层维度或者隐层的数量来提高计算效率。

负载均衡问题:具体而言,模型训练时会趋向于总激活某几个专家,这是模型的“自我强化”导致的不平衡性。先前的一些工作会加入一些硬限制和软限制。

MOE中通过增加两种loss设计,importance loss&load loss。前者定义重要性,表示某个专家训练的样本数量,从而鼓励所有专家都参与训练。后者是为了解决有些专家接收少量大权重的样本,有些专家接收大量小权重的样本的情况。


实验:

实验部分展示了在语言建模以及翻译等任务上MOE的表现。基本来说,MOE在更小计算量的情况下,模型拥有更高的参数量(最高为1370亿参数量),并且在test perplexity上更低。


结论:

MOE确实提供了一个很好的思路来提升模型容量。在理想情况下,只需要增加专家的数量(设备数量)就可以增大模型参数量。但是实际训练操作比较困难,同时文中的专家网络仅是简单的前馈神经网络,其他网络结构还需要近一步探索。

之后会记录一系列的MOE相关论文,希望能够获得启发。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,047评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,807评论 3 386
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,501评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,839评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,951评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,117评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,188评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,929评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,372评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,679评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,837评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,536评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,168评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,886评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,129评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,665评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,739评论 2 351

推荐阅读更多精彩内容