从任务上来看,语义分割要实现的最终目标是像素级分类: 从像素层次来识别图像,即为图像中的每个像素指定类别标记。
分割网络:Deeplabv3p
用一个简单有效的解码器模块扩展DeepLabv3优化细分结果,尤其是沿目标边界。此外,在这种编码器—解码器结构中,可以通过空洞卷积(在模型的最后一个特征图应用全局平均池化)任意地控制所提取的编码器特征的分辨率,以折中准确率和运行时间。
综合了以下三个特点:
1、提高感受野的大小;
2、提高Encoder网络的层数;
3、扩大了卷积核可触达的区域即意味着扩大卷积所包含的信息范围。
骨干网络:MobileNetv3
MobileNetv3作为一种轻量级网络,其参数量还是一如既往的小,只有三四百万参数量,不容易过拟合,分为large和small两类,前者用于高资源用例,后者性能好。主要利用网络架构搜索(NAS—NetAdapt Search)优化每个网络块来搜索全局网络结构的一种算法,先升维后降维,但当降维过度时,ReLU会造成信息丢失,升维后容易保持可逆。优化了网络端部的最后阶段,将最后一步的平均池化层前移并移除最后一个卷积层。
综合了以下四个特点:
1、深度可分离卷积depthwise separable convolutions,在输入1x1卷积进行升维度后,进行3x3深度可分离卷积,减少参数量和计算量,本质是对冗余信息更少的稀疏化表达;
2、具有线性瓶颈的逆残差结构the inverted residual with linear bottleneck,先利用1x1卷积进行升维度,再进行下面的操作,并具有残差边,加深网络层数;
3、轻量级的注意力模型,可调整每个通道的权重;
4、利用hard-swish代替swish函数,由于在更深的网络层中使用h-swish才能体现其优势,建议通常在模型的后半部分使用,提高性能。