TESA: Tensor Element Self-Attention via Matricization 笔记

这是发在 CVPR 2020 上的文章。

Abstract

表示学习是现代计算机视觉的基础部分,其中抽象的数据表示被编码为张量,经过优化可解决图像分割和修复等问题。最近,以非局部块的形式出现的自我注意已成为一种通过捕获特征张量中复杂的相互依赖关系来丰富特征的强大技术。但是,标准的自注意力方法仅利用空间关系,绘制矢量之间的相似性,并忽略通道之间的相关性。这篇文章中提出一个名为张量元素自注意力(Tebsor Element Self-Attention (TESA)),该方法以使用矩阵法捕获沿张量所有维度的相互依赖性。

一个阶为R的张量产生R个结果,每一个维度对应一个结果。然后将这些结果融合以产生丰富的输出,该输出封装了张量元素之间的相似性。

此外,文章用数学方法分析了自我注意,为如何调整输入特征张量的奇异值提供了新的视角。有了这些新的见解,文章提供了实验结果,证明了TESA如何使各种问题(包括分类和实例分割)受益。

1. Introduction

DCNNs 虽然代表了各种计算机视觉任务的最新计算,但是它们仅计算输入的局部区域。而无需使用规避技术就很难捕获这种长的相关性。例如,使用更深的卷积层堆栈会以优化困难和更高的复杂性为代价,增加神经元的感受野。

最近,已经提出了更复杂的层(例如非本地块),这些层直接利用这些相互依赖关系作为丰富中间CNN表示的手段。(???)

然而,这些方法中的大多数试图仅估计输入张量位置之间的时空相关性或忽略其复杂的拓扑。

在本文中,以上述研究为基础,并将其范围扩展到从输入中挖掘张量元素相互作用的目标。

三个主要贡献:

  • 提出了一个新的自我注意模块(TESA),该模块可以利用输入张量的所有可能方向上的相关性来利用通道信息,而又不会丢失输入张量的拓扑。 建议使用张量矩阵化作为提取复杂相互作用的一种方法,而不是将输入的元素完全张开为单个向量;(Figure 1)

    Figure 1
  • 对提出的非本地块族提供了统计解释。 特别地,我们证明了文章的块可以看作是算子,充当特征张量的各种矩阵的频谱(即方差)的正则化器。

  • 在一系列异构计算机视觉任务中展示了TESA的强大功能。

2. Related Work

Self-similariters

图像部分或视频帧之间的相似性概念在许多计算机视觉应用中至关重要。

(没看懂文章这部分想要表达个啥)

Self-Attention

注意机制的关键思想是使模型集中于数据的特定部分,这对于解决给定任务很有用。

3. Method

3.1 Notation

张量:如,\mathcal{X}
张量的阶/张量的模:N
张量的矩阵化:\mathbf{X}_{n}
矩阵:如,\mathbf{X}
矩阵\mathbf{X}的第i行是向量x_{i}

3.2 Overview of self-attention

给定输入矩阵\mathbf{X},注意机制使用注意矩阵\mathbf{A}\mathbf{X}进行加权,以突出显示输入的相关部分。 不同的计算方式\mathbf{A}导致注意机制的不同变体。

这篇文章专注于自我注意,其中权重仅是输入\mathbf{X}$的函数。

特别地,考虑成对函数f,该函数可用于捕获每个x_{i}与每个x_{j}之间的相互依赖性。

自我注意块是残差块的一种变体,它会将自我注意机制的输出与原始输入\mathbf{X}$相加,公式如下:

公式 1

3.3 Capturing spatial correlation

让3阶张量\mathcal{X}\in R^{H\times W\times C}是 CNN 一层的输出特征图。
c矩阵化,\mathbf{X}_{c}\in R^{WH\times C}。假设X_{c}是平均归一化的。
在提出的块的线性版本中,选择协方差X_{(c)}X^{⊤}_{(c)}\in R^{WH\times HW}作为关注矩阵,该协方差表示每个第i个位置与每个第j个位置之间的相关性。因此,使用这种机制的空间自我关注块的输出可以写为:

公式 2

其中,\alpha_{c}\beta_{c}是可学习的标量,可调节每个术语的贡献。

在公式 2中,全局协方差项会通过空间相似性来调整要素表示。

残差项以及两个可学习的标量允许通过多项式函数对频谱进行隐式正则化。在自我注意的输入和输出之间绘制一个连接块,省略下标以简化表示法。

矩阵\mathbf{X}及其正定半协方差矩阵具有以下奇异值和本征分解:

公式 3

其中,Q = U是特征向量矩阵,V^{T}U是右,左奇异值向量,\Lambda是特征值矩阵,并且\Sigma其对应的奇异值对角矩阵,\Lambda = \Sigma^{2}\beta参数学习调节以下项的贡献:

公式 4

公式 5

3.4 Capturing tensor elements interdependencies

在下面的内容中,将介绍一种利用空间和基于通道的相关性的通用化,同时保持模块对频谱的完整影响。

正如 Figure 1中所描述的,使用三模矩阵\mathbf{X}_{(c)},\mathbf{X}_{(h) },\mathbf{X}_{(c)},代表了特征
张量\mathcal{X}\in R^{H\times W\times C},每个都通过权重矩阵\mathbf{W}嵌入不同的子空间中,接下来是一个非线性函数\sigma

公式 6

在作者的实验中,\sigma是 ReLU 激活函数,并且\mathbf{W}_{(c)}\in R^{C\times C}\mathbf{W}_{(h)}\in R^{H\times H}\mathbf{W}_{(w)}\in R^{Wtimes W} 对应于每个维度上张量空间中的1×1卷积。

然后,自注意力块被应用到每一个\mathbf{Y}_{(n)},通过求和合并以生成最终输出Z

公式 7

其中,\Psi_{(n)}是一个重塑函数,将矩阵重新排列为尺寸为H\times W\times C的张量。

公式 7中,每个嵌入的矩阵表示输入张量上的不同观点:
\mathbf{Y}_{(c)}代表空间相互作用,\mathbf{Y}_{(w)}代表行和通道激活之间的相互作用,\mathbf{Y}_{(h)}代表列和通道之间的相互作用。

不仅限于捕获位置之间的相关性,还能够捕获跨信道的相关性。

3.5 Relation with Other Self-Attention Blocks

文章的目标是将自我注意机制推广到更复杂的互动,而不会忽略渠道信息。因此,文章的块分别嵌入每个张量模式,旨在从每个嵌入中提取不同的相关性。

4. Illustrative experiment

自我注意机制的目标之一是使模型具有一眼就能推理出整个输入表示的能力。

首先在受控场景中测试此属性,然后设计一个新的“益智MNIST”实验。使用 MNIST 数据集和4层全卷积编码-解码器。

为了测试文章的自我注意方法利用可用但分散的信息的能力,尝试给定图像的改编版本来重建图像。为了获得输入拼图,每个图像被分成16个相等大小的图块。然后将这些图块随机旋转并镜像,然后再缝合在一起。输入和输出样本如 Figure 2e 和 2a 所示。

Figure 2

4.1 Capturing spatial correlations

开始分析如公式 2 中所示的空间自注意力块。

为了强调潜在空间中自我注意的影响,比较了一个没有任何注意训练的模型(\alpha= 1,\beta= 0)和该块的两个变体:一个变体,其中\alpha\beta固定为等于1,另一个变体 它们被视为可学习的标量。Figure 2 的第一行显示了比较的定性概述。 基线仅限于本地处理输入,并且其性能要比经过自我关注训练的模型差。

Figure 2 的第二行显示对MNIST拼图测试集的奇异值的经验分布的比较。给定测试集的样本,我们提取了特征在自我注意块之前和之后,为每个图像返回两个矩阵\mathbf{X}_{in}\mathbf{X}_{out}

如第3节所述,该方法使左和右奇异矢量保持不变。 因此,仅使用\alpha\beta参数就可以计算输入和输出之间的关系,并且可以并排绘制输入和输出的奇异值频谱,从而捕获自我注意的效果。

Figure 2g 和 2h 展示了输入\mathbf{X}_{in}(蓝色)的奇异值,输出\mathbf{X}_{out}(白色)的奇异值。红条表示使用公式 5 获得的\Sigma_{out}预测。

4.2 Capturing tensor elements interdependencies

可以使用相同的逻辑来分析方程式7的一般情况。第一步,我们将线性空间情况扩展为考虑基于通道的相互依赖性。 这种情况等效于用公式 7中的\mathbf{X}_{n}替换\mathbf{Y}_{n}
这样就可以在相同的潜在空间中比较输入(\mathcal{X})和输出(Z)张量,并有可能直接检查其张量谱。

Figure 3

在 3b,3c,3d 图中,分别对每个模式矩阵(H,C,W)进行处理,显示每个自我注意的输入和输出之间的比较。 这些图描述了自我注意如何对所有模式的矩阵产生收缩效果。

为了讨论公式 7中描述的情况,必须扩展分析范围,以考虑嵌入式模式矩阵\mathbf{Y}_{c}\mathbf{Y}_{h}\mathbf{Y}_{w}。在这种情况下,由于投影矩阵\mathbf{W}_{c}\mathbf{W}_{h}\mathbf{W}_{w}是可学习参数,输入\mathcal{X}Z张量位于不同的子空间中。

因此,每个自我注意的输入/输出对仍然共享相同的正交向量,并且它们的频谱仍可以进行比较并用于强调自我注意模块对每个潜在空间的影响。

参考资料:
TESA: Tensor Element Self-Attention via Matricization

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,233评论 6 495
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,357评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,831评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,313评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,417评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,470评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,482评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,265评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,708评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,997评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,176评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,827评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,503评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,150评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,391评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,034评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,063评论 2 352