这篇文章最大的贡献就是有效降低了vision transformer的训练成本(时间以及数据),提高了ViT实验的可复现性,本文所提出的DeiT只需要在8块gpu上训练不到3天,就可以达到媲美JFT上训练的ViT的精度。在Google所提的ViT文章中的实验结果表明,vision transformer在用超大数据集(如JFT)做训练的情况下,性能才能超过CNN。本文在结构上没有对vision transformer进行修改,而是通过引入蒸馏、数据增强等技巧,有效提高了ViT在ImageNet上的训练精度。
虽然这篇文章针对ViT专门提出了一种基于distillation token的蒸馏方式,在ViT中额外引入一个与classification token类似的distillation token,与teacher的distillation token计算损失,但是与普通的蒸馏方式相比,这种新的蒸馏方式结果优势并不太明显。
除此之外,本文最值得称道的就是作者展现出的牛逼的训模型技术了,这篇文章的后半部分可以看成一个trick包,非常适合我这种训模型苦手学习。作者经过一系列ablation study,发现transformer对于数据增强方式非常敏感,用或不用数据增强造成的精度差距非常大(当然这个其实也可以看作是对数据量的要求);同时,对于regularization方式,可调的地方也非常多,降低weight decay就可以带来性能提升; 除此之外,在224的resolution上pretrain,384上finetune,也是一个很有用的技巧。