按难易程度进行分类:从易到难*--->***
一、易
1、图像语义分析学习(一):图像语义分割的概念与原理以及常用的方法 定义,算法
应用:自动驾驶系统(具体为街景识别与理解)、无人机应用(着陆点判断)
Grouping, segmentation
1.1基于图划分(Graph partitioning):需要用户交互操作
(1)Normalized Cut图像分割
(2)Grab cut:RGB 图像的前景和背景分别用一个高斯混合模型(Gaussian mixture model, GMM)来建模
1.2深度学习(Deep learning, DL)
(1)全卷积神经网络(Fully convolutional networks,FCN):直接进行像素级别端到端(end-to-end)的语义分割,基于深度卷积神经网络模型(CNN)实现。
?全连接层,卷积层,池化层,上采样,下采样 见2
(2)Dilated Convolutions:在去掉池化下采样操作的同时,而不降低网络的感受野
(3)条件随机场(Conditional random field,CRF)
2、十分钟看懂图像语义分割技术 前面同1,池化,
深度神经网络:输入层、中间层、输出层
2.1卷积神经网络算法(Convolutional Neural Networks),简称 CNN。卷积神经网络就是一种深度神经网络
图像输入,卷积核
全连接层:一维向量
CNN 的输入是图像,输出是一个结果,或者说是一个值,一个概率值
2.2 FCN 即 全卷积神经网络(Fully Convolutional Networks)。
FCN 输入是一张图片是,输出也是一张图片,学习像素到像素的映射。
CNN 网络中的后三层,都是一维的向量,计算方式不再采用卷积,所以丢失了二维信息,而 FCN 网络中,将这三层全部转化为 1*1 的卷积核所对应等同向量长度的多通道卷积层,使后三层也全部采用卷积计算,整个模型中,全部都是卷积层,没有向量,所以称为 “全卷积”。
FCN 将第 6 层和 7 层分别从 4096 长度的向量转化为 4096 通道的卷积层,第 8 层则是 21 通道的卷积层。之所以第 8 层从 1000 缩减到 21,是因为 FCN 使用的识别库是 PASCAL VOC,在 PASCAL VOC 中有 20 种物体分类,另外一个 background 分类。(关于 PASCAL VOC 参见附录)
二者区别图:红色框中的部分
池化简单来说就是将输入图像切块
CNN 最终只输出一个结果:“这个图上是个啥”:不需要上采样
FCN 是像素级别的识别,也就是输入有多少像素,输出就要多少像素,像素之间完全映射,并且在输出图像上有信息标注,指明每一个像素可能是什么物体 / 类别。上下采样均需要
每一个卷积层,都包含了 [卷积 + 池化] 处理,这就是传说中的 “下采样”:图像的像素信息变小了
反卷积”,对第 5 层进行反卷积,可以将图像扩充至原来的大小, 称为 “上采样”
2.3Dilated Convolutions疏松的卷积核
条件随机场”( Conditional Random Field,简称 CRF)的技术作为输出结果的优化后处理手段,还有马尔科夫随机场 (MRF) 和高斯条件随机场 (G-CRF)
二、译文,难*****
1、深度学习-语义分割总结 定义、分类、汇总
三、项目中可能用到的
1、专栏 | CVPR 2017论文解读:Instance-Aware图像语义分割
物体分割(instance aware segment)有别于语义分割。在语义分割中,同一类的物体并不区分彼此,而是统一标记为同一类。但物体分割需要区分每一个独立的个体。
Image Classification
The task of object classification requires binary labels indicating whether objects are present in an image.[1] 图像分类,该任务需要我们对出现在某幅图像中的物体做标注。比如一共有1000个物体类,对一幅图中所有物体来说,某个物体要么有,要么没有。可实现:输入一幅测试图片,输出该图片中物体类别的候选集
Object detection ****
Detecting an object entails both stating that an object belonging to a specified class is present, and localizing it in the image. The location of an object is typically represented by a bounding box. 物体检测,包含两个问题,一是判断属于某个特定类的物体是否出现在图中;二是对该物体定位,定位常用表征就是物体的边界框。可实现:输入测试图片,输出检测到的物体类别和位置。
Semantic scene labeling
The task of labeling semantic objects in a scene requires that each pixel of an image be labeled as belonging to a category, such as sky, chair, floor, street, etc. In contrast to the detection task, individual instances of objects do not need to be segmented. 语义标注/分割:该任务需要将图中每一点像素标注为某个物体类别。同一物体的不同实例不需要单独分割出来。对下图,标注为人,羊,狗,草地。而不需要羊1,羊2,羊3,羊4,羊5.
Instance segment
实例分割是物体检测+语义分割的综合体。相对物体检测的边界框,实例分割可精确到物体的边缘;相对语义分割,实例分割可以标注出图上同一物体的不同个体(羊1,羊2,羊3...)
我的博客即将搬运同步至腾讯云+社区,邀请大家一同入驻:https://cloud.tencent.com/developer/support-plan?invite_code=3niuce37mf0gs