寒假读论文列表

2019.1.26
SEMI-SUPERVISED CLASSIFICATION WITH GRAPH CONVOLUTIONAL NETWORKS
优化图卷积，通过切比雪夫多项式近似，不需要做特征分解和矩阵乘法，降低复杂度。
2019.1.27
DPN
两个支路，一个resnet，一个densenet。
DenseNet
所有层之间密集连接，相当于增加网络的宽度，还便于反传梯度。
Large kernel matters
解决语义分割中classification和localization难以同时满足的问题，通过：1）不使用pooling等破坏局部信息的操作； 2）使用large kernel扩大视野域。
2019.1.28
Attention is all you need
只用self-attention，避开cnn和rnn的模块，对输入进行特征提取。好处是可以并行对序列数据进行特征提取，利用multi-head attention模块达到了并行性。有效证明不通过卷积或rnn模块，只使用self-attention，一样可以利用attention对空间信息进行提取和融合。
2019.2.19 今天突然明白了文中的Q，K，V是什么意思。attention可以看成一个检索过程。信息以key-value的形式存放起来，检索时用query跟key进行匹配，匹配成功得到key对应的value。匹配时采用相似度进行度量，K和Q越接近，得到value的权重越大。因此，比如说从中文翻译到英文，那么K就是中文，Q就是英文，计算每个汉字对英文的attention，也就是计算Q和K的相似度，归一化后得到attention（看成一种权重），用attention对整个中文句子进行加权，则V也是中文句子，在这里，K和V对应的是同一个对象。这就是下面这张图的含义。

2019.1.31
Zero-shot Recognition via Semantic Embeddings and Knowledge Graphs
关注zero-shot识别，利用GCN的方法比较另类，可能是受nlp中entity classification的启发，并且，GCN被用于做semi-supervised分类，而zero-shot恰好属于semi-supervised。GCN每个node代表一个category，输入是每个category的word embedding，输出是每个category的分类器（应该是一个D维单层感知机）。显式利用knowledge graph，有关系的category之间连一条无向边。
Non-local
2019.2.1
2019年进度条已经走了1/12了，异常紧张。。。
Videos as Space-Time Region Graphs
这篇将gcn运用到视频分类上。启发应该是relation预测，套路也很像，先用rpn生成proposals，做ROI align后max pooling成1x1xd大小的特征，作为图卷积的输入。处理特征使用了3D卷积核，这个还没有详细了解过。图的邻接矩阵编码方式是基于图本身内容的，1）similarity relation，计算每两个node之间的相似度，将相似度矩阵作为图的邻接矩阵，这个是编码了同一（尽量吧）object的状态变化以及object之间的长时依赖关系；2）spacial & temporal relation，计算相邻两帧每两个node对应bbox的iou，iou作为邻接矩阵值，这个编码了object在相邻空间和时间上的关系。最后不同的子图输出相加作为图卷积最终输出。
属于non-local的后续，文中也比较了non-local和similarity graph，基本上similarity graph添加一个residual connection就是non-local了。总算知道为什么要搞shortcut了。。。不过直接将图卷积运用在视频上，是跳过了图片吗。。。
2019.2.4
感冒高烧了两天，挂了一天水吃了好几包退烧药终于缓过来了，然而还是疯狂咳嗽，慢慢痊愈吧。。。
今日论文：
Squeeze-and-excitation networks
这篇文章做的是通道的attention，目的是在cnn的视野域限制下，在浅层就获得全局的context信息。具体做法为，对每一层的特征做一次通道内的global pooling，随后接一个类似于bottleneck的全连接层，然后对原特征的每个通道做增强（或抑制）。所以，大概的想法就是，有的通道比较重要，就用一个大的数增强，有的通道不重要，就用一个小的数抑制。
2019.2.5
今天又开始发烧了，早知道昨天就去再挂一天水了，还疯狂咳嗽，，，，，，，昨天的论文没看完，挪到今天看了，菜狗
Gather-Excite: Exploiting Feature Context in Convolutional Neural Networks
这篇论文是延续SENet的工作的，也是希望在浅层就获取全局的context信息。不同的是，上一篇直接在每个通道的特征得到一个值，这篇尝试获取的是一个张量。文中公式写的很复杂，看不明白，大概意思应该是定义一个extent ratio e，将原来的特征图缩小到之前的1/e，缩小的方法有无参数的average pooling，以及有参数的strided depth-wise convolution。得到缩小的特征图后，将其进行最近邻插值上采样到跟原来一样大，与原特征进行逐元素相乘（Hadamard product）。最后实验验证了不同大小的e，发现还是global的尺寸效果最好。
2019.2.8
Graph U-Net
这篇文章好像是被拒了，不过老板让看就看看了。主要是定义了graph的pooling和unpooling操作，从而可以在graph上定义类似U-Net的encoder-decoder结构，可以用于每个元素的分类任务（不过原本gcn就是可以做每个元素分类的，不知道这么搞有什么特殊的含义）。pooling操作实际上是对图进行重采样，保留最重要的一部分node，将每个node的特征投影到一个可学习向量p上，选择分量最大的k个node组成新的图，这个可以类比max-pooling，但是它没有邻域的定义，只是选择了全局最重要的k个node。unpooling操作就是一个回填的过程，没有的统统补0。实验结果显示这么搞一个u-net结构做分类，确实比之前提升了不少。
个人对这个方法保留看法，虽然这么做确实提升了精度，在类比cnn做pixel分类上也能讲的通。但cnn中进行pooling是为了扩大视野域，而在这种pooling操作下，gcn是无法扩大视野域的，因其采样并非局部性的，并且，多进行几次特征传播，gcn的视野域就可以扩大到k阶相邻的node。而这种操作的unpooling操作，次数越多，会使得decode之后的graph全0的节点数目越多，肯定会丧失很多的信息。
2019.2.9
Convolutional 2D Knowledge Graph Embeddings
想了解一下knowledge graph，就读了一篇相关的，本来以为是用gcn做的，其实不是。
kg研究的对象就是很多个三元组，<s, r, o>，由于graph很大，容易缺失关系，kg做的任务就是预测缺失的关系，即预测一个p(s, r, o)。通常做法是neural link predictor，获取s和o的embedding，将其作为关系r对应函数，即score function的两个输入，输出p。本文的方法就是属于这一类，不过是把二维卷积用到了score function中，方法相当简单，据说参数也并不多，可以用到大规模图中。
其实kownledge graph研究的也是relation，不过relation是cv领域，kg是nlp领域，relation研究的是一张图，kg研究的是一个超级大的网络，二者在规模上还是有一些差异。relation应该也可以从kg中借鉴不少东西。
2019.2.13
OCNet: Object Context Network for Scene Parsing
这篇文章是在场景分割任务中引入了self-attention。按照作者所说，PSPNet，ASPP都是试图从context角度提升分割性能的，然而由于PSPNet的global pooling其实是基于局部的，比如将某个像素所属的4*4的区域认为成是同一个object的，这是不科学的，因此提升有限。文中提出了object context，将所有属于同一个object的pixel都当做一个像素所属的context，用这个context来对这个像素做特征增强。具体做法是求了一个所有像素的similarity map，然后用它来增强特征。其实还是一个non-local的应用，首先计算特征间的距离，虽然说得是object context，但实际上还是global context，就是直接用了non-local的做法。因此，感觉在方法上没有很大的创新，可能只是在分割领域提出了一种新的解释。
2019.2.19
Residual Attention Network for Image Classification
这篇论文是比较早的将attention模块插入到图像分类中的文章。attention类型也属于SENet这一类scale-attention，将特征图通过max-pooling下采样后再上采样放大到原来的尺寸，从而起到增强重要的内容，抑制不重要的内容的作用。区别是整个网络只用了三次attention，本文的attention跨越了很多层，尺度要更大，并且，这里的attention是当成残差加到原来的主干上的，而GENet是直接在原特征上进行操作。
2019.2.20
CBAM: Convolutional Block Attention Module
这篇文章是直接将SENet的想法同时在channel和spatial上进行，channel上的attention就是SENet，spatial上的attention也是一样的先做channel pooling再上采样成一张attention map，再乘到channel attention增强后的特征上。唯一的一点改进就是同时用了max-pooling和avg-pooling，而SENet里只用了avg-pooling。文章还探索了其他结构，如两个attention支路并行，或者两个交换一下顺序，发现还是串行，channel在前效果最好。
从明天起，这篇文章就不会再更新啦，我开学了。。。。。

寒假读论文列表

寒假读论文列表

相关阅读更多精彩内容

友情链接更多精彩内容