计算机视觉面试之语义分割

在深度学习广泛应用于计算机视觉之前,人们一般使用TextonForest和Random Forest based Classifiers的方法进行语义分割。

深度学习方法中常见的一种语义分割方法是图像块分类(patch classification),即利用像素周围的图像块对每一个像素进行分类。原因是网络模型通常包含全连接层(fully connect layer),而且要求固定大小的图像输入。

2014年,加州大学伯克利分校的Long等人提出全卷积网络(FCN),使得卷积神经网络不需要全连接层就可以实现密集的像素级分类,从而成为当前非常流行的像素级分类CNN架构。由于不需要全连接层,所以可以对任意大小的图像进行语义分割,而且比传统方法要快上很多。之后,语义分割领域几乎所有的先进方法都是基于该模型进行扩展的。

为了保留像素的空间位置信息,有两种方法可以解决这个问题:

(1)编码器-解码器结构,编码器与解码器之间通常存在跨越连接(shortcut connections)。U-Net是这类架构中最常用的模型之一(源于:Convolutional Networks for Biomedical Image Segmentation)。

(2)使用带孔卷积(dilated/atrous convolutions),从而除去池化层。

条件随机场(CRF)通常用于后处理来进一步改善分割效果。CRF是一种基于底层图像的像素强度进行的平滑分割的图模型,原理是相似强度的像素更可能标记为同一类别。

绿色是CNN预测的类别,黄色是像素实际类别

一、FCN 2014年

主要贡献:

1. 为语义分割引入了端到端的全卷积网络。

2. 利用ImageNet的预训练网络做语义分割。

3. 使用反卷积层(取代线性插值)进行上采样。

4. 引入少量跳跃连接改善上采样粗糙的像素定位。

二、SegNet 2015年

主要贡献:

使用编码-解码架构。并且将池化结果应用到译码的过程,使用的是Pooling indices(记录位置信息)而不是简单地复制特征。其实没有跳跃连接,更节省内存。

三、U-Net 2015年

U-Net的结构更规整,是FCN的延伸,通过将编码器的每层结果拼接到译码器中得到更好的结果。

四、Dilated Convolutions 2015年

移去了VGG网络的最后两层池化层,并且后续的卷积层都采用带孔卷积。还训练了一个模块,输入卷积结果,级联了不同孔大小的带孔卷积层。

主要贡献:

1. 通过带孔卷积提取和聚合多尺度的信息。

2. 提出context module来聚合多尺度的信息。

五、DeepLab(v1 & v2) 2014年 & 2016年

主要贡献:

1. 采用了带孔卷积。

2. 提出了金字塔形的空洞池化(Atrous Spatial Pyramid Pooling, ASPP)。

3. 采用了全连接的CRF。

六、RefineNet 2016年

由于带孔卷积需要大量的高分辨率特征图,对计算和内存的消耗很大,因此无法利用高分辨率的精细预测。

该文章采用编码解码结构。编码器是ResNet-101,解码器是RefineNet模块,用于连接编码器中高分辨率特征和先前RefineNet中低分辨率的特征。

每一个RefineNet都有两个组件,一个组件通过对低分辨率特征的上采样操作融合不同的分辨率特征,另一个组件利用窗口为5*5且步长为1的池化层来获取背景信息。这些组件都遵循恒等映射(identity mapping)思想,采用残差连接设计。

主要贡献:

1. 精心设计了译码模块。

2. 所有模块遵循残差连接设计。

七、PSPNet 2016年

Pyramid Scene Parsing Network

金字塔池化模块通过使用大窗口的池化层来提高感受野。使用带孔卷积来修改ResNet网络,并增加了金字塔池化模块。金字塔池化模块对ResNet输出的特征进行不同规模的池化操作,并作上采样后,拼接起来,最后得到结果。

金字塔池化模块简单来说是将DeepLab(不完全一样)ASPP之前的feature map池化了四种尺度之后,将五种feature map拼接到一起,经过卷积,最后进行预测的过程。

在ResNet的第四个阶段之后(即输入到金字塔池化模块的阶段),在主分支损失之外增加辅助损失(其他论文称为中间监督)。

主要贡献:

1. 提出了金字塔池化模块来聚合图片上下文信息。

2. 使用附加的辅助损失函数。

八、Large Kernel Matters 2017年

理论上更深的ResNet能有很大的感受野,但研究表明实际上网络更适合收集较小区域(有效感受野)内的信息,因此使用大核来扩大感受野。但是核越大,计算量越大,因此将 k x k 的卷积近似转换为 1 x k + k x 1 和 k x 1 + 1 x k 卷积的和。本文称为GCN。

编码器使用ResNet(无带孔卷积),解码器由GCNs和反卷积构成。此外还用到了边界精调(Boundary Refinement, BR)的简单残差块。

主要贡献:提出具有大卷积核的编码-解码架构。

九、DeepLab v3 2017年

主要贡献:

1. 改进ASPP。将不同孔率的带孔卷积的结果拼接起来(DeepLab v2使用的是求和),并使用了BN。

2. 串行部署ASPP的模块。直接对中间的特征图进行带孔卷积(Dilated Convolutions(2015) 是在最后做)。

采集多尺度信息的方法
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,463评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,868评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,213评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,666评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,759评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,725评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,716评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,484评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,928评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,233评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,393评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,073评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,718评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,308评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,538评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,338评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,260评论 2 352

推荐阅读更多精彩内容