关于Attention

其实卷积神经网络自带Attention的功能,比方说在分类任务中,高层的feature map所激活的pixel也恰好集中在与分类任务相关的区域,也就是salience map

在此推荐一下MIT的phd周博磊大神的文章《Learning Deep Features for Discriminative Localization》


这里的Wi如果是正的,说明这个kernel学习的模式对于判断这个类别有正向作用,比如判断狗时学狗头的kernel;Wi如果是负的,说明这个kernel学习的模式对于判断这个类别有负向作用,比如判断out door场景时学床或者窗子的kernel;

attention的几种形式:

The visual attention mechanism may have at least the following basic components [Tsotsos, et. al. 1995]:

(1) the selection of a region of interest in the visual field; 

(2) the selection of feature dimensions and values of interest; 

(3) the control of information flow through the network of neurons that constitutes the visual system; and 

(4) the shifting from one selected region to the next in time .

Attention model 可以分成 soft attention 和 hard attention 两种 ,前者可以通过反向传播训练, 后者是在分布中以某种采样策略选取部分分量,可以通过强化学习等方法优化。

这个加权可以作用在空间尺度上,给不同空间区域加权;推荐文章《Residual Attention Network for Image Classification》CVPR17

也可以作用在channel尺度上,给不同通道特征加权;推荐文章《Squeeze-and-Excitation Networks》ILSVRC 2017 image classification winner; CVPR 2018 Oral

对于序列也可以作用在时间维度上,对于文本、音频、视频数据。

Attention在seq2seq里面的应用:Attention is all your need讲解博客 Google大作,RNN 要逐步递归才能获得全局信息,因此一般要双向 RNN 才比较好;CNN 事实上只能获取局部信息,是通过层叠来增大感受野;Attention 的思路最为粗暴,它一步到位获取了全局信息,感觉nonlocal就是视频版本的这篇文章有没有!

推荐一下facebook在CVPR2018的大作《Non-local Neural Networks》,感觉是目前看到的视频领域最精巧的attention,未来视频paper估计都要和它比了,打视频比赛估计也会是3D卷积+光流+音频+nonlocal+ensemble了吧。。


J.K. Tsotsos, et.al., Modeling visual attention via selective tuning, Arti. Intell., 1995, 78:507-545.

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • Chapter.1 “他会所有的不正经,却唯独对音乐最走心。” 1983年夏天, 薛之谦出生在上海, 2017年夏...
    Ruueryee阅读 4,177评论 0 1
  • 她不抽烟不喝酒身上也没有纹身 她的青春也曾那样轰轰烈烈 可她现在 把长长的头发挽起 化着淡妆挂着婉转的笑 要是她以...
    顾怀笙阅读 1,603评论 0 1
  • 数组的删除,我们经常用到splice splice(start, len, obj)start:其实位置,0就是从...
    smallseed阅读 3,247评论 0 0
  • 对孩子的疼爱,绝不是宠溺过度。 对孩子的关心,要敏锐到知道她心里想的是什么,无微不至。 与孩子的相处要让她敞开心扉...
    珊_1ec0阅读 1,549评论 0 0

友情链接更多精彩内容