阅读笔记-LocalViT: Bringing Locality to Vision Transformers

来源: arXiv:2104.05707v1, CVL ETH
代码: https://github.com/ofsoundof/LocalViT (尚未开源 2014/04/14)

title


绪论

这篇文章出发点是认为Vision中的transformer考虑了太多的全局关系而忽略了传统CNN中的局部性,因此在transformer中引入locality。其实这种做法最近还是很多的,比如Stand-alone self-attention,TNT, PVT, deformDETR, SwinTransformer等等,都是引入局部性的不同方式。 本文的方式简单来说就是在Multi-head self-attention之后的FFN模块中通过kxk的卷积核引入局部性。

方法

我们知道特征图上1x1的卷积相当于是每个位置上的Linear层,因此对于图像的self-attention之后的FFN层可以转换成feature map上的1x1卷积,如下图所示:


image.png

于是可以将1x1的卷积替换成3x3等大的卷积核实现局部性的引入。

然后作者借鉴了inverted residual block中的depth-wise conv设计,将两层的FFN改造成下面结构:


image.png

最后作者还讨论了 DW Conv之后接不同的激活模块的性能。

class token

对于分类任务而言,基于transformer的结构除了图像不同patch形成的tokens之外,还有一个class token用于最终的类别预测。 因为本文方法需要将patch重新组织成image形式进而进行3x3的卷积,这时候class token就被独立出来,作者的做法是将讲过self-attention的class token直接与经过FFN之后的patch tokens组合,也就说不对class token进行embedding。作者分析原因认为class token的作用主要是融合各个patch的信息,这个功能在self-attention模块实现,因此后面的FFN重要性不大。

实验(图像分类)

实验细节和一般的ViT系列方法相同,实验数据ImageNet 1K, 图像大小224x224,bs=1024, base_lr=1e-3, momentum=0.9, weight-decay=0.05, adamW 优化器,Epochs=300, cosine learning rate scheduler.

实验结论:

表1分析了FFN中不同的expandsion ratio对性能的影响,发现这个数值增大能够一定程度的提升性能,这里的LocalViT-T表示的是在两个1x1的conv2d后面均添加BN层,且在FFN前面去除LN的效果。可以发现这种改进本身就能提升性能,如果中间再加上一层depth-wise的conv2d的话性能提升更加明显。有些遗憾的是没有对比如果采用普通cnn的效果。

表2给出了conv2d之后的激活函数的影响,默认使用的是ReLU6, 注意这里是第一个1x1的conv2d和depth-wise conv2d 采用的激活函数,而最后一层1x1的conv2d没有使用激活函数。

表3给出的是在不同的encoder layer中使用depth-wise conv2d的效果,可以发现在低层的作用更加明显,注意Table1中给出的LocalViT不使用DW的base是72.5, 也就说这里单独在高层使用depth-wise conv2d反而性能下降了。

表4给出的是h-swish激活函数下的结果,不同的expansion ratio以及是否使用SE中的channel attention。

结论

从CNN到transformer,本身我认为跨度就有些太大了,因此最近很多工作都是在进行中和。我觉得这个工作加到swin transformer上应该也会有些作用,另外DW Conv如何引入deformable 会如何呢?

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,734评论 6 505
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,931评论 3 394
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,133评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,532评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,585评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,462评论 1 302
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,262评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,153评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,587评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,792评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,919评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,635评论 5 345
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,237评论 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,855评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,983评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,048评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,864评论 2 354

推荐阅读更多精彩内容