Less-forgetful Learning for Domain Expansion in Deep Neural Networks

Abstract

Expanding the domain that deep neural network has already learned without accessing old domain data is a challenging task because deep neural networks forget previously learned information when learning new data from a new domain.

本文提出一种less-forgetful learning方法在domain expansion scenario。这个方法不需要知道输入是从old domain或new domain来的,就能在old domain和new domain上工作得很好。

Introduction

  • Domain adaptation: the same tasks but in different domains. The domain adaptation problem concerns how well a DNN works in a new domain that has not been learned. These domain adaptation techniques focus on adapting only to new domains.

  • 但是实际情况中,应用经常需要记住old domain而没有再次看old domain data。本文提出这个问题,并称为DNN domain expansion problem.

  • image
  • DNN domain expansion problem非常重要的三个主要原因:

    1. 它使DNNs能够不断地从连续不断的输入数据中学习。(学习方式的优势)
    2. 在实践中,用户可以只使用从新环境收集的新数据来微调他们的DNN,而不访问来自old domain的数据。(学习的数据只来自new domain)
    3. 建立一个在多个领域执行的统一网络是可能的。(学习结果是一个能在多个domain工作)
  • Two challenging issues:

    1. network在old domain的performance不能下降,即不能发生catastrophic forgetting problem
    2. DNN需要在没有关于输入数据从哪个domain来的prior knowledge。

Domain Expansion Problem

image

Figure 2 (a),(b)需要关于数据domain的prior knowledge,Figure 2 (c)是本文提出的方法,不需要关于数据domain的prior knowledge

domain expansion problem是continual learning problem的一部分。continual learning通常考虑multiple task learning或者sequence learning (more than two domains), 但是domain expansion problem只考虑两个domains,old 和 new domain。

Related work

  • dropout method + maxout activation function 能够帮助减少遗忘学习到的信息。
  • large DNN + dropout method可以解决catastrophic forgetting problem
  • learning without forgetting (LwF)Figure 2 (a) 利用knowledge distillation loss method保持performance
  • progressive learning (PL) (Figure 2 (b))在学习新task时通过侧面连接使用之前学习的features
  • Elastic weight consolidation (EWC)使用Fisher information matrix computed from the old domain training data,将diagonal elements作为l2 regularization的coefficients,在学习new domain data时达到old and new network之间的weight parameter相似。
  • generative adversarial networks被用来学习生成old domain data
  • image
  • Type A^{'}通过ad-hoc training process去提取useful information from old domain data;
  • Type B^{'}通过通常的方法使用old domain data训练network,该方法可以直接应用到pre-trained models上。

Naive Approach

Fine-tuning only the softmax classifier layer

  • freeze lower layers,fine-tune the final softmax classifier layer
  • the feature extractor is shared between the old and new domains
  • 这个方法是希望old domain和new domain共享的weight parameter不要改变

Weight constraint approach

  • 使用l2 regularization去达到old domain和new domain之间相似的weight parameters

\mathcal{L}_w(x;\theta^{(o)},\theta^{(n)})=\lambda_c \mathcal{L}_c(x;\theta^{(n)})+\lambda_w\|\theta^{(o)}-\theta^{(n)}\|_2 \\ \mathcal{L}_c(x;\theta^{(n)})=-\sum^C_{i=1}t_i\log(o_i(x;\theta^{(n)}))

  • 这个方法是期望weight parameter不要改变太大来保留学习到的信息。

Comment:以上两个方法都是希望尽量使new network和old network之间的差异或变化小,Fine-tuning only the softmax classifier layer使old domain和new domain共享的weight parameter差异为0,Weight constraint approach使old domain和new domain之间的weight parameters相似,差异不要太大。两种方法本质一样,只是程度不同。

Less-forgetful learning

  • softmax classifier的weight代表分类feature的decision boundary,从top hidden layer提取feature是线性可分的,因为top layer classifier有线性的性质。
  • Property 1. The decision boundaries should be unchanged.
    Property 2. The features extracted by the new net- work from the data of the old domain should be present in a position close to the features extracted by the old network from the data ofthe old domain.

实现Property 1可以设置boundary的learning rate为0.
实现Property 2,由于不能访问old domain data,所以可以使用training data of the new domain。

image

本文提出的方法和传统的fine-tune method一样,将old network copy到new netwrok。然后,为了保持boundary不变,将softmax classifier layer的weight freeze。Loss function如下:

\mathcal{L}_t(x;\theta^{(o)},\theta^{(n)})=\lambda_c\mathcal{L}_c(x;\theta^{(n)})+\lambda_e\mathcal{L}_e(x;\theta^{(o)},\theta^{(n)})
\mathcal{L}_ccross entropy loss, \mathcal{L}_e Euclidean loss, \lambda_c=1,\lambda_e通常比\lambda_e通常比\lambda_c小。

\mathcal{L}_e(x;\theta^{(o)},\theta^{(n)})=\frac{1}{2}\|\mathbf{f}_{L-1}(x;\theta^{(o)})-\mathbf{f}_{L-1}(x;\theta^{(n)})\|_2^2
\mathbf{f}_{L-1}使softmax classifier layer之前的feature,new network学习提取与old network 提取的feature相似的feature。

\hat{\theta}^{(n)}=\arg\min_{\theta^{(n)}}\mathcal{L}_t(x;\theta^{(o)},\theta^{(n)})+\mathcal{R}(\theta^{(n)})
\mathcal{R}(\cdot)是general regularization term,such as weight decay。这里与Weight constraint approach一样。

image

Comment: Less-forgetful learning的方法将Fine-tuning only the softmax classifier layer和Weight constraint approach结合起来。(1)同时提出decision boundary应该不变,所以freeze softmax的weight。(2)还提出\mathcal{L}_e,与distillation loss类似。

Experimental results

  • task:image classification
    dataset:CIFAR-10,MNIST,SVHN,ImageNet


    image
  • comparison methods:(1)bashline:fine-tuning+weight constraint+ReLU/Maxout/LWTA;(2)LwF;(3)EWC

  • result


    image
  • ablation study

    1. Relationship between the classification rates for the old and new domains with different values of \lambda_e.
    2. Average classification rates with respect to \lambda_e.
    3. Classification rates according to the size of the old-domain data using the CIFAR-10 dataset.
    4. Further Analysis of Scratch learning, Fine-tunig and LF learning
    5. Feasibility for Continual Learning
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,324评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,356评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,328评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,147评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,160评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,115评论 1 296
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,025评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,867评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,307评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,528评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,688评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,409评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,001评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,657评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,811评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,685评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,573评论 2 353

推荐阅读更多精彩内容