1.注意力Q,K,V来源,这个文章的讲自然语言的。
-
注意力三个参数的来源
什么是query“查询”、key“键”和values“值”向量?
我感觉是因为用q*k时认为得到了单词两两的权重,然后用softmax计算得到概率模型,然后用乘以v得到了一部分注意力的样子。以下是原文:
The second step in calculating self-attention is to calculate a score. Say we’re calculating the self-attention for the first word in this example, “Thinking”. We need to score each word of the input sentence against this word. The score determines how much focus to place on other parts of the input sentence as we encode a word at a certain position.
The score is calculated by taking the dot product of the query vector with the key vector of the respective word we’re scoring. So if we’re processing the self-attention for the word in position #1, the first score would be the dot product of q1 and k1. The second score would be the dot product of q1 and k2
- 注意力权重的计算方法:
注意力入门
Q*K
相当于多个单词nn对应的权重关系,。
注意力
两种:
- 自上而下(top-down)(focus): 主动有意识聚焦某一对象,又称聚焦式 (focus)
- 自下而上(bottom-up):无意识,基于显著性的注意力。赢者通吃。
soft attention :
文本翻译
soft attention :思是在求注意力分配概率分布的时候,对于输入句子
X中任意一个单词都给出个概率,是个概率分布。
hard attention: 对不齐的概率认为是0
global attention model : soft attention model
local attention model : soft attention model & hard attention model
计算机视觉
分类和mask解耦,
有多个类别的mask,反向传播只优化当前类别对应的mask.
混合注意力机制
不传递谁的损失函数,不更新谁的梯度。
残差注意力模型
每个注意力模块分为两部分:mask (M)和trunk(T),基于特征提取网络提取特征T,
H_i,c (x)=M_i,c (x)∗T_i,c (x)
注意力模块中,注意力掩膜在forward时作为特征选择器,在反向传播时则作为梯度更新的滤波器。
注意力残差学习
由于注意力用到了softmax 网络,如果太多的注意力模型会导致模型输出的响应变弱,可能对梯度也会产生一定的影响。
所以用残差的注意力:
H_i,c (x)=(1+M_i,c (x))∗T_i,c (x)
一般M的取值范围在[01,]之间,除了得到注意力之外还要把特征图加上。
软掩膜分支
掩膜分支包括了快速前馈扫描(fast feed-forward sweep)和自上而下的反馈(top-down feedback)步骤。前者快速收集整个图像的全局信息,后者将全局信息与原始特征图相结合。在卷积神经网络中,这两个步骤展开为bottom-up top-down的全卷积结构。
先对原图下采样,得到主要特征后,在上采样使大小与原图一样,然后通过sigmoid 。
空间注意力
使用L2正则化约束每个位置上的所有通道,推测最终输出一个空间维度一致的Attention Map;
通道注意力
类似于SENet使用L2正则化约束每一个通道上的所有特征值,最后输出长度与通道数相同的一维向量作为特征加权;这个和公式里描述的是一样吗?
混合注意力
对通道和空间位置都是用
attention all you need
注意力
多头注意力机制
自注意力
position Embedding
不知之处
- 运算量大?
attention
Task 1
学习权重分布
任务2
-
任务聚焦:
将分类和分割任务进行解耦,当box branch已经分好类时,segment branch 就不用再关注类别,只需要关注分割,从而使网络更加容易训练。生成狗mask的那部分网络连接(卷积核)只需要聚焦于狗类的样本,然后将属于狗的像素目标凸显出来出来,训练其他类别时不会对这些连接权重进行更新。
图像分割
训练中,使用Attention Map对浅层网络的loss进行引导,只反传在粗的船头/船尾位置上的loss,其他地方的loss不反传。相当于,深层的网络能得到一个船头/船尾的大概位置,然后浅层网络只需要关注这些大概位置,然后预测出精细的位置,图像中的其他部分(如船身、海洋和陆地)都不关注,从而降低了学习的难度。
注意力和特征
ws -dan
通过1x1卷积产生注意力?这不是我常见的,我的疑惑就在这里。他既不是通道注意力,也不是空间注意力。
- 针对ws-dan
Attention 一个1x1的卷积,其实就是先在1维度计算均值,然后乘以一个固定通道数的值。
然后计算feature_matrix 其实还是2,3维度做均值。
根据我的观察,attention map应该在维度1上是成倍数的。
feature matrix 应该是在N上成倍数的关系。