论文 | 《dataset distillation》数据集知识蒸馏文章解读

一 写在前面

未经允许,不得转载,谢谢~~~

这篇文章属于knowledge distillation,但是与之前Hiton大佬提出的从复杂模型迁移到小模型在整体的思路上有很大的不同,一个是从model的角度,一个是从dataset的角度,观点挺新颖的。

放上原文链接及最早提出知识蒸馏的文章链接供大家参考~

二 主要内容

2.1 文章工作

这篇文章的最核心的idea就在于之前的工作model distillation,即将知识从复杂模型迁移到更简单的小模型,而文章从不同的角度提出dataset distillation,保持模型结构不变,将知识从大的训练集凝练到小的训练集。

for example, 对于包含60,000张训练图像的minst数据集,文章可以为其生成10张synthetic distilled images,即每个类仅为其生成一张,这样一个生成的小数据集就能达到与原有数据集类似的训练效果。

围绕这个核心创新点,总结来说文章完成了以下几件事情:

  1. idea: network distillation ---》dataset distillation
  2. 可以将几千几万张训练图像 ---》 几张distilled images, 甚至做到1张/1类。
  3. 网络学习的任务从面向任务优化权重 ---》 面向任务优化distilled images的各个像素,可以理解为网络的目标为如何合成这些图像。
  4. 尝试了4种不同的网络初始化方法。
    • fixed initialization;
    • random initialization;
    • fixed pre-trained weights;
    • random pre-trained weights。
  5. 在image classfication和poisoning attack两个任务上都进行实验并取得不错的结果。

2.2 实验结果图

  1. 展示了用distilled images也能用于将网络模型训练的很好(image classification);
  2. 展示了用distilled imaged可以很快将在一个数据集上训练过的模型在另一个数据集上进行fine-tune (image classification);
  3. 展示了用distilled images可以用于攻击已经训练好的网络模型 (poisoning attack)。
实验结果图

2.3 相关工作

在这里简单列一下相关的方向,具体的关系与差别就不说啦~

  1. Knowledge distillation.(知识蒸馏)
  2. Dataset pruning,core-set construction,and instance selection.(数据集修剪,数据集子集构建,样本选择)
  3. Gradient-based hyperparameter optimization(基于梯度下降的参数优化)
  4. Understanding datasets.(数据集理解)

三 方法

3.1 setup

  1. 给定训练集x={xi}, i 属于[1,N]
  2. 用θ表示网络参数,l(xi,θ) 表示数据点xi的损失函数。
  3. 对应的训练目标即为:(其中l(x,θ) 表示在整个训练集x上的平均损失)


3.2 optimizing distilled data (fixed init, single GD step)

  1. 标准的训练方法是对minibatch进行梯度下降,每一步t,都对网络参数从θ:t优化到θ(t+1);
  2. 文章的目标是要学习一个很小的数据集x~,在初始化参数θ0已知的情况下,只优化一步得到的θ1即为式1所示;
  3. 那么此时的优化目标即为寻找合适的x~和学习率 η~,具体如式2所示。

3.3 distillation for random initializations(random init, single GD step)

  1. 与3.2中fixed init中不同的就是不再受限于固定的初始化参数θ。
  2. 单步的参数优化过程其实就在上式3中将θ0改成服从p()分布,然后随机采样得到,作为初始化参数,具体见下式4。
  3. 实验验证这样随机初始化训练出来的distilled images会看起来更make sense。


  1. 网络整体的优化过程:

这里最重要的是要理解第6,7行是先在distilled images上更新网络参数,然后用这个网络参数在真实的数据集上去做loss评价,我觉得可以理解作者希望网络在distilled images和真实的训练集上的loss都低,以达到distilled images的生成。 最后第9行是用第7行得到的真实数据集上的loss来指导distilled images像素和学习率的更新。

3.4 analysis of a simple linear case

  • 该部分主要是以一个简单的线性函数为例子进行理论推导,证明M最小是多少才能保证经过一次GD step之后可以达到与全训练集一样的训练效果。
  • 整体推导过程就不写了,感兴趣的同学可以去看一下公式~
  • 最终给出的结论是:dTd必须满秩,且M>=D,其中d表示原始训练集在各个类上的分布矩阵[N*D], N是原始数据集大小,D是类别数据。

3.5 multiple gradient descent steps and multiple epochs

  • 前面介绍的fixed init 和random init,以及整个dataset distillation的算法图都是基于single GD step的情况的。
  • 当多步的时候就将algorithm1中第6行从原来的单步改成:
  • 相应的第9行也用反向传播算法逐步传播梯度。
  • 文章中还用了优化算法来加快梯度回传的过程。

3.6 distillation with different initializations

不同的参数初始化方法。


  • 其中pre-trained weights的初始化方法还可以用于度量dataset distillation方法在减小两个数据集之间gap上的效果。(开头实验结果图中的第二栏所表现的)

3.7 distillation with different objectives

  • 不同的训练目标函数可以使的distilled data表现出不同的行为。
  • 之前提到的都是image classification。
  • 该方法还可以用于攻击网络。
  • 简单来说,为了让网络将类别原来为K的图像,错分成类别T,那么对应的目标函数即为:


四 写在最后

实验部分就不再放了。

主要内容就是这些,整篇文章还是挺有意思的,创新点鲜明突出,实验支持也比较完整~

希望自己也能做出一篇这样的work。

路漫漫其修远兮,吾将上下而求索,加油,给所有正在努力科研的人儿~~
φ(๑˃∀˂๑)♪

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,132评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,802评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,566评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,858评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,867评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,695评论 1 282
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,064评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,705评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,915评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,677评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,796评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,432评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,041评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,992评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,223评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,185评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,535评论 2 343

推荐阅读更多精彩内容