姓名:雷含笑;学号:21021210745;学院:电子工程学院
【嵌牛导读】图像的语义分割是计算机视觉中重要的基本问题之一,其目标是对图像的每个像素点进行分类,将图像分割为若干个视觉上有意义的或感兴趣的区域,以利于后续的图像分析和视觉理解。近年来,深度卷积神经网络的出现,极大地推动了语义分割的发展。编解码结构是语义分割领域最为经典的网络结构,在解码器中使用多级特征融合的策略可以提升分割精度,针对基于编解码器结构的语义分割网络,实现在语义分割相关任务上的训练和测试。
【嵌牛鼻子】语义分割 计算机视觉
【嵌牛提问】用什么方法去评价语义分割模型?
【嵌牛正文】
1 评价指标
在语义分割领域中,经典的评价指标有很多,比如平均准确度(Mean Accuracy,MA)、像素准确度(PixelAccuracy,PA)、交并比(Intersection over Union,IoU)、最常用的平均交并比(Mean Intersection over Union,mIoU)等[10]。近年来不断更新的语义分割网络也正是用这些指标来进行训练、测试。
以下是部分指标的计算公式,计算公式的符号含义解释为:
mIoU指标简洁且具有代表性,也是目前图像语义分割领域中各大经典网络的发表论文上频频使用的一项准确度的评级指标。在近年来不断更新的语义分割网络的论文中,mIoU是最有力的性能评判手段之一。在本章对各网络进行评价对比的过程中,使用到了mIoU和mPA作为评价指标。
2 数据集PASCAL VOC 2012
PASCAL VOC为图像识别提供了一套标准化的优秀的数据集。其三个主要的物体识别竞赛分别是分类classification, 检测detection, 分割segmentation。PASCAL---- Pattern Analysis, Statistical Modelling and Computational Learning,分别是模式分析、 统计建模、 计算学习;
VOC----Visual Object Class, 视觉对象类;对于分割任务, VOC2012的trainval包含2007-2011年所有对应图片,test只包含2008-2011,trainval有2913张图片,共6929个物体。
总共分成20+1类,有20类物体,第21类为背景:
Person : person
Animal : bird , cat , cow , dog , horse , sheep
Vehicle : aeroplane , bicycle , boat , bus , car , motorbike , train
Indoor: bottle, chaire, dining-table, potted plant, sofa, tv/monitor
本次实验针对上次计算机视觉——经典语义分割模型(二)介绍的SegNet、U-Net、Deeplab v3+、PspNet四种网络,在表对应的数据集上对它们进行训练,再对相应测试数据集的图片进行预测,对结果使用mIoU和mPA来评估其语义分割效果。使用的训练集图片共10582张,验证集1449张。本实验训练部分所使用的损失函数由两部分组成:Cross Entropy Loss和Dice Loss。其中Cross Entropy Loss就普通的交叉熵损失,在语义分割网络利用Softmax对像素点进行分类的时候使用。交叉熵衡量的是两个分布之间的距离,可以被用来刻画预测值和标签值的差异程度。
根据表中SegNet、U-Net、PspNet 、Deeplab v3+四种网络的mIoU和mPA值结果,它们的mPA值相差不大,但mIoU值有相对明显的区别。而根据mIoU值的对比,SegNet的语义分割效果相较最差,Deeplab v3+的语义分割效果相较最好。而在另外三种网络中Deeplabv3+的多级特征融合方法最复杂,也取得了最好的语义分割效果。在本次实验对四种经典语义分割网络使用了同一种特征提取网络的条件下,最终得到结论,Deeplab v3+融合方法相较效果最好。
在计算mIoU值时,首先对验证集所有的图片进行预测,输出带有标签的图后,再逐张地进行计算。在实验过程中,不仅计算了总体的值,还计算了20类中每一类的对应值。对SegNet、U-Net、PspNet 、Deeplabv3+四种网络的mIoU值计算结果如表所示。
本博客详述了对语义分割网络分割效果的经典评估指标,实验对比了各个网络在简单的斑马线预测模型上的效果,在经典PASCAL VOC 2012 AUG数据集上对U-Net、SegNet、PspNet、Deeplab v3+进行了训练、测试和评估,用计算出的mIoU和mPA说明了它们的语义分割效果。