你想要的神经网络自动设计,谷歌大脑帮你实现了:用参数共享高效地搜索神经网络架构(ENAS)

张跃凡  20012100054  通信工程学院

转自http://nooverfit.com/wp/%E4%BD%A0%E6%83%B3%E8%A6%81%E7%9A%84%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C%E8%87%AA%E5%8A%A8%E8%AE%BE%E8%AE%A1%EF%BC%8C%E8%B0%B7%E6%AD%8C%E5%A4%A7%E8%84%91%E5%B8%AE%E4%BD%A0%E5%AE%9E%E7%8E%B0%E4%BA%86/

【嵌牛导读】谷歌电脑自动实现神经网络设计

【嵌牛鼻子】神经网络架构

【嵌牛提问】如何高效的搜索并实现高效的神经网络设计

【嵌牛正文】


模型自动设计已经不是新鲜事(H2O 的AutoML,谷歌的CLOUD AUTOML)。但是,高效的神经网络自动设计还是一个较有挑战性的课题(单纯用CV选模型太耗时间) 。谷歌大脑的这篇新论文就提供了一种高效的搜索方法,称之为:Efficient Neural Architecture Search(ENAS)。

对于老版本强化学习的NAS,需要21天搜索出的cnn模型,ENAS只需要3小时就可以搜索出相同准确率的模型:

例子:对于CIFAR-10数据集ENAS搜索出的具有4.23%错误率的模型,只需要3小时左右。 来自:https://arxiv.org/pdf/1802.03268.pdf

作者把这样的效率提高归功于候选子模型的参数共享上(相似子模型可以模仿迁移学习使用已有的权重,而不需要从头训练)。

为简单起见,我们先从生成四个计算节点的RNN循环神经网络进行解释:

来自:https://arxiv.org/pdf/1802.03268.pdf

即使是只有四个计算节点的RNN,也有多种有向无环图(DAG)的生成可能,如上左图,红色的箭头生成的RNN才是我们在右图中看到RNN。

如何生成和设计上图RNN? 我们需要另一个被称之为Controller的RNN,注意,这是用来生成神经网络(理论上任何神经网络)的RNN:

有了这个Controller,我们可以构建和改进神经网络架构。如上图,Controller本质上是一个RNN,如果输入计算操作(tanh,ReLU),它会返回下一个应该连接的节点下标(0,1,2);如果输入的是节点下标(比如节点2),它会告诉你这个这个节点的输出应该用什么操作处理(此处节点2后面应该跟ReLU).

有了生成模型架构的思路是不够的,我们还需要高效地评估Controller生成的子模型好坏:

来自:https://github.com/carpedm20/ENAS-pytorch

之前的NAS是对候选子模型逐个从头训练,事实上子模型的结构许多都是相似的,所以许多Wi,j (第i个节点与第j个节点的权重矩阵) 是可以复用的,没有必要从头开始训练。这样的共享权重在文中被称作shared model。

整个ENAS的搜索过程,是shared model和Controller交替更新的训练结果:

def train(self):

    """Cycles through alternately training the shared parameters and the

    controller, as described in Section 2.2, Training ENAS and Deriving

    Architectures, of the paper.

    From the paper (for Penn Treebank):

    - In the first phase, shared parameters omega are trained for 400

      steps, each on a minibatch of 64 examples.

    - In the second phase, the controller's parameters are trained for 2000

      steps.

    """

    if self.args.shared_initial_step > 0:

        self.train_shared(self.args.shared_initial_step)

        self.train_controller()

    for self.epoch in range(self.start_epoch, self.args.max_epoch):

        # 1. Training the shared parameters omega of the child models

        self.train_shared()

        # 2. Training the controller parameters theta

        self.train_controller()

        if self.epoch % self.args.save_epoch == 0:

            with _get_no_grad_ctx_mgr():

                best_dag = self.derive()

                self.evaluate(self.eval_data,

                              best_dag,

                              'val_best',

                              max_num=self.args.batch_size*100)

            self.save_model()

        if self.epoch >= self.args.shared_decay_after:

            utils.update_lr(self.s3

上述代码是ENAS Pytorch的实现,

1. self.train_shared() 在模型架构固定的情况下,基于训练集,更新和共享内部参数权重Wi,j,使得内部权重得到更好收敛。

2. self.train_controller() 充分使用共享的内部权重,从controller RNN中抽样出一些候选子模型,在这些模型中选择在验证集上表现最好的架构,继续步骤1的计算。

以上两步交替进行,即ENAS的主要搜索过程。其中共享权重的代码似乎在shared_rnn.py中有所体现:

self.w_h = collections.defaultdict(dict)

self.w_c = collections.defaultdict(dict)

for idx in range(args.num_blocks):

    for jdx in range(idx + 1, args.num_blocks):

        self.w_h[idx][jdx] = nn.Linear(args.shared_hid,

                                      args.shared_hid,

                                      bias=False)

        self.w_c[idx][jdx] = nn.Linear(args.shared_hid,

                                      args.shared_hid,

                                      bias=False)

上面是RNN神经网络架构生成的实现,在CNN神经网络中,会更复杂一些。

首先,CNN中会有一些跳层连接,因此1个节点可能会连接2个之前节点:

来自:https://arxiv.org/pdf/1802.03268.pdf

上图的sep指的是可分离卷积(Separable Convolutions)如果对可分离卷积及其他卷积不熟悉,可以去这个链接补补:An Introduction to different Types of Convolutions in Deep Learning

其次,目前的CNN架构中经常遇到卷积块的内部设计,文中称之为micro search(如inception网络中的block,以及Separable Convolutions):

来自:https://arxiv.org/pdf/1802.03268.pdf

最后,我看看在CIFAR-10数据集上ENAS与其他算法的综合比较:

来自:https://arxiv.org/pdf/1802.03268.pdf

可见ENAS算法时间效率上的搜索优势较大,而准确率上,DenseNet+CutOut的人工网络设计最佳。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,457评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,837评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,696评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,183评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,057评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,105评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,520评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,211评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,482评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,574评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,353评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,213评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,576评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,897评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,174评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,489评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,683评论 2 335

推荐阅读更多精彩内容