姓名:寇世文
学号:21011110234
学院:通信工程学院
【嵌牛导读】:随着人工智能技术的不断发展,智能机器人领域也得到了空前的发展。尤其是深度神经网络广泛应用于视觉系统中后,取得了许多很明显的成效。对于自主移动机器人来说,视觉系统有着十分重要的作用,而图像分割技术更是在这个系统中担任着十分重要的角色。传统的图像分割技术基本上已经能够将图像的前景和后景分隔开来,但是近年来随着深度学习算法的发展,人们开始将其应用到图像分割中,提出了很多分割网络,也达到了很好的分割效果。在实现图像分割的基础上,人们还使得分割具有了语义类别和标签,就是现在的语义分割。本文在介绍了语义分割的基础上又引出了新的任务分割场景,实例分割和全景分割。并且介绍了最近研究的热点三维点云的语义分割问题,阐述了其实现的必要性。
【嵌牛鼻子】智能机器人,图像分割、语义分割、计算机视觉
【嵌牛提问】图像分割技术的深度方法
【嵌牛正文】
一、引言
在深度学习算法出来之后,卷积神经网络被广泛应用于计算机视觉技术中,也因此衍生出了很多的研究方向。深度学习主要是以特征为基础来进行比对,如在人脸识别方面,使用卷积神经网络分别对两张人脸进行不同位置的特征提取,然后再进行相互比对,最后得到比对结果。目前的计算机视觉的主要研究方向有图像分类、目标检测、图像分割、目标跟踪、图像滤波与降噪、图像增强、风格化、三维重建、图像检索、GAN等。本文主要是针对图像分割这一领域,进行简要的概述。
二、发展现状
在深度学习算法出来之后,图像的分割效果得到了很大的提升,并且人们也提出了很多种方法来实现分割。有基于特征编码的实现方法,VGGNet和ResNet在特征提取领域有着非常好的效果。由于VGGNet大部分的参数主要在全连接层上,所以网络的加深并不会造成参数爆炸。在使用多个小核卷积层时,其感受野能够等同于一个大核卷积层(大概是三个3×3的感受野等同于一个7×7的),但是经过如此操作后,其参数量远远少于大核卷积层,而且由于小核的非线性操作多于大核的,也就使得其学习能力较强。但是小核本身具有较多的网络层数,也会使得最后的全连接层的参数多,最终就会占用更多的内存空间。对于ResNet,它的出现解决了深度学习网络堆叠到一定深度的时候会出现梯度消失的问题,也是深度学习发展历程中的一个重要的转折点。这个网络实际上引入了一个残差学习模块,这个模块的加入使得网络能够尽可能地加深。在此基础上还可以保证前馈、反馈传播的顺利进行,同时还可以简化网络结构。
除了可以基于特征编码来实现,还可以基于区域进行选择。这种方法是计算机视觉里一种常用的算法,尤其是在目标检测领域。其主要思想是根据颜色空间和相似矩阵来检测待检测区域,之后根据检测结果来进行分类预测。
我们都知道RNN在手写和语音识别方面有着很好的表现,但是近来也有一些学者试图将它应用到计算机视觉中,这就是所谓的基于RNN的图像分割方法。和其他分割方法不同的是,这种方法能利用其自身的特点来结合上下文的关系来重新加权类的预测。为了解决时间会随着数据样本的增加而出现指数增长的问题,可以用多个递归连接来替换单个递归连接。
基于上采样、反卷积的分割方法在图像分割领域几乎已经成为一个标杆,FCN主要是对图像进行了像素级的分类,进而解决了语义级别的图像分割问题。对于FCN,其可以保留原始输入图像的空间信息。但是由于其是对各个像素分别进行分类,并没有将像素与像素之间的关系考虑进去,也就导致其缺乏空间的一致性。
我们都知道图像在深度卷积神经网络中进行处理时会使得其分辨率产生一些下降,这个时候一种提高特征分辨率的分割方法就产生了。它采用带有空洞的采样,在使用空洞卷积的情况下,感受野会增大,使得每个卷积输出都包含了较大范围的信息。这样就解决了关于分辨率的内部数据结构丢失和空间层计划信息丢失等问题。
基于特征增强的分割方法包括:提取多尺度特征。当神经网络用于图像分割时,CNN经常被用在图像的小方块上,这个小方块是具有固定大小的以每个像素为中心的卷积核。我们可以观察卷积核周围的小区域来标记具体的每个像素的分类。很明显,当我们尽可能地覆盖到更大部分的上下文信息时,这个网络的分割效果也就更好。