BiSeNet,BiSeNet-v2的作者也是Lite-HRNet(2021.4,https://www.jianshu.com/p/53c5ee276b74)的一作,来自华中科技大学的Changqian Yu (现在在美团)
作者首页:
https://www.changqianyu.me/
http://ycszen.github.io/
目录:
• BiSeNet (2018.8)
• BiSeNet-v2 (2020.4)
BiSeNet
BiSeNet: Bilateral Segmentation Network for Real-time Semantic Segmentation
ECCV2018
作者:Changqian Yu, Jingbo Wang, Chao Peng, Changxin Gao, Gang Yu, Nong Sang
原文:https://arxiv.org/abs/1808.00897
摘要:语义分割需要丰富的空间信息和相当大的感受野。然而,现代方法通常会牺牲空间分辨率以实现实时推理速度,这导致性能较差。在本文中,我们使用一种新的双边分割网络(BiSeNet)来解决这一难题。我们首先设计一个小步幅的空间路径,以保留空间信息并生成高分辨率特征。同时,采用具有快速下采样策略的上下文路径来获得足够的感受野。在这两条路径的基础上,我们引入了一个新的特征融合模块来有效地组合特征。所提出的架构在城市景观、CamVid和COCO数据集的速度和分割性能之间取得了适当的平衡。具体来说,对于2048x1024输入,我们在一张NVIDIA Titan XP卡上以105 FPS的速度在Cityscapes测试数据集上实现了68.4%的平均IOU,这大大快于具有类似性能的现有方法。
1 引言
语义分割的研究是计算机视觉中的一项基本任务,相当于为每个像素分配语义标签。它可以广泛应用于增强现实设备、自动驾驶和视频监控领域。这些应用程序对快速交互或响应的高效推理速度有很高的要求。
最近,实时语义分割算法[1,17,25,39]表明,主要有三种方法来加速模型。1) [34,39]尝试通过裁剪或调整大小来限制输入大小,以降低计算复杂度。虽然该方法简单有效,但空间细节的丢失会破坏预测,尤其是边界附近的预测,导致度量和可视化的准确性降低。2) 一些工作不是调整输入图像的大小,而是修剪网络的通道以提高推理速度[1、8、25],尤其是在基础模型的早期阶段。然而,它削弱了空间容量。3) 对于最后一种情况,ENet[25]建议放弃模型的最后一个阶段,以追求一个非常紧密的框架。然而,这种方法的缺点是显而易见的:由于ENet在最后阶段放弃了下采样操作,因此模型的感受野不足以覆盖大型对象,导致识别能力较差。总的来说,上述所有方法都在精度和速度之间折衷,这在实践中较差。图1(a)给出了说明。
为了弥补上述空间细节的损失,研究人员广泛使用U形结构[1,25,35]。通过融合主干网络的层次特征,U形结构逐渐提高了空间分辨率,并填补了一些缺失的细节。然而,这种技术有两个缺点。1) 由于在高分辨率特征图上引入额外计算,完整的U形结构可以降低模型的速度。2) 更重要的是,如图1(b)所示,在修剪或修剪过程中丢失的大多数空间信息无法通过涉及浅层轻松恢复。换句话说,U形技术更好地被视为缓解(relief),而不是根本的解决方案。
基于以上观察,我们提出了双边分割网络,其包含2部分:空间路径(SP)和上下文路径(CP)。顾名思义,设计这两个组件是为了分别应对空间信息的丢失和感受野的收缩。这两条路径的设计理念是明确的。对于空间路径,我们仅堆叠三个卷积层以获得1/8的特征图,该图保留了丰富的空间细节。关于上下文路径,我们在Xception[8]的尾部附加了一个全局平均池化层,其中感受野是主干网络的最大值。图1(c)显示了这两个组件的结构。
为了在不损失速度的情况下获得更好的精度,我们还研究了两条路径的融合和最终预测的细化,并分别提出了特征融合模块(FFM)和注意力细化模块(ARM)。正如我们下面的实验所表明的那样,这两个额外的组件可以进一步提高城市景观[9]、CamVid[2]和COCO-Stuff[3]基准上的整体语义分割精度。
我们的主要贡献总结如下:
– 我们提出了一种新方法,将空间信息保存和感受野提供的功能解耦为两条路径。具体来说,我们提出了一种具有空间路径(SP)和上下文路径(CP)的双边分割网络(BiSeNet)。
– 我们设计了两个特定的模块,即特征融合模块(FFM)和注意力细化模块(ARM),以进一步提高准确性,同时代价可以接受。
– 我们在Cityscapes、CamVid和COCO等基准上取得了令人印象深刻的成果。更具体地说,我们在Cityscapes测试数据集上以105fps的速度获得了68.4%的结果。
2 相关工作
最近,许多基于FCN[22]的方法在语义分割任务的不同基准上取得了最先进的性能。这些方法大多旨在编码更多的空间信息或扩大感受野。
空间信息: 卷积神经网络(CNN)[16]通过连续下采样操作对高级语义信息进行编码。然而,在语义分割任务中,图像的空间信息对于预测细节输出至关重要。现有的现代方法致力于对丰富的空间信息进行编码。DUC[32]、PSPNet[40]、DeepLab v2[5]和DeepLab v3[6]使用扩展卷积来保持特征图的空间大小。全局卷积网络[26]利用“大内核”来扩大感受野。
U形法: U形结构[1,10,22,24,27]可以恢复一定程度的空间信息。原始FCN[22]网络通过跳连接网络结构编码不同级别的特征。一些方法将其特定的细化结构应用到U形网络结构中。[1,24]使用反卷积层创建U形网络结构。U-net[27]为该任务引入了有用的跳连网络结构。全局卷积网络[26]将U形结构与“大核”结合在一起。LRR[10]采用拉普拉斯金字塔重建网络。RefineNet[18]添加了多路径细化结构来细化预测。DFN[36]设计了一个通道注意块来实现特征选择。然而,在U形结构中,一些丢失的空间信息不容易恢复。
上下文信息: 语义分割需要上下文信息来生成高质量的结果。大多数常用的方法是扩大感受野或融合不同的上下文信息。[5、6、32、37]在卷积层中使用不同的扩张率来捕获不同的上下文信息。在图像金字塔的驱动下,语义分割网络结构通常采用多尺度特征集成。在[5]中,提出了一个“ASPP”模块来捕捉不同感受野的上下文信息。PSPNet[40]应用了一个“PSP”模块,该模块包含几个不同尺度的平均池化层。[6] 设计了一个具有全局平均池化的“ASPP”模块,以捕获图像的全局上下文。[38]通过尺度自适应卷积层改进神经网络,以获得自适应字段上下文信息。DFN[36]在U形结构的顶部添加了全局池化,以编码全局上下文。
注意力机制: 注意机制可以使用高级信息来引导前馈网络[23,31]。在[7]中,CNN的注意力取决于输入图像的尺度。在[13]中,他们将通道注意力应用于识别任务,并实现了最先进的技术。与DFN[36]一样,他们将全局上下文作为注意力学习,并修改特征。
实时分割: 实时语义分割算法需要一种快速生成高质量预测的方法。SegNet[1]利用小型网络结构和跳连方法实现快速。E-Net[25]从头开始设计轻量级网络,并提供极高的速度。ICNet[39]使用图像级联来加速语义分割方法。[17] 采用级联网络结构,以减少“容易区域”中的计算。[34]设计了一种新的两列网络和空间稀疏性,以减少计算成本。不同的是,我们提出的方法采用轻量级模型来提供足够的感受野。此外,我们设置了一个浅而宽的网络来捕捉足够的空间信息。
3 双边分割网络
在本节中,我们首先细节说明了我们提出的具有空间路径和上下文路径的双边分割网络(BiSeNet)。此外,我们还相应地阐述了这两种途径的有效性。最后,我们展示了如何将这两条路径的特征与特征融合模块以及BiSeNet的整体架构相结合。
3.1 空间路径
在语义分割任务中,一些现有方法[5、6、32、40]试图保持输入图像的分辨率,以用扩展卷积编码足够的空间信息,而一些方法[5、6、26、40]试图用金字塔池化模块、孔洞的空间金字塔池化或“大核”捕获足够的感受野。这些方法表明,空间信息和感受野对于实现高精度至关重要。然而,很难同时满足这两个要求。特别是在实时语义分割的情况下,现有的现代方法[1、25、39]利用小输入图像或轻量级基础模型来加速。输入图像的小尺寸丢失了原始图像的大部分空间信息,而轻量级模型通过通道修剪破坏了空间信息。
基于这一观察,我们提出了一种空间路径来保持原始输入图像的空间大小,并编码丰富的空间信息。空间路径包含三层。每一层包括步长为2的卷积,然后是批量归一化[15]和ReLU[11]。因此,该路径提取的输出特征映射为原始图像的1/8。由于特征图的空间尺寸很大,因此它编码了丰富的空间信息。图2(a)显示了结构的细节。
3.2 上下文路径
虽然空间路径编码了丰富的空间信息,但上下文路径旨在提供足够的感受野。在语义分割任务中,感受野对分割性能有着重要的影响。为了扩大感受野,一些方法利用了金字塔池化模块[40]、孔洞的空间金字塔池化[5,6]或“大内核”[26]。然而,这些操作需要计算量和内存消耗,导致速度较慢。
同时考虑到大的感受野和高效的计算,我们提出了上下文路径。上下文路径利用轻量级模型和全局平均池化[5,6,21]来提供大的感受野。在这项工作中,轻量级模型,如Xception[8],可以快速对特征映射进行降采样,以获得较大的感受野,从而编码高级语义上下文信息。然后,我们在轻量级模型的尾部添加了一个全局平均池化,该池化可以提供具有全局上下文信息的最大感受野。最后,我们结合了全局池化的上采样输出特性和轻量级模型的特性。在轻量级模型中,我们部署了U形结构[1、25、35]来融合最后两个阶段的特征,这是一种不完整的U形风格。图2(c)显示了上下文路径的整体透视图。
注意力细化模块: 在上下文路径中,我们提出了一个特定的注意力细化模块(ARM)来细化每个阶段的特征。如图2(b)所示,ARM采用全局平均池化来捕获全局上下文,并计算注意力向量来指导特征学习。这种设计可以细化上下文路径中每个阶段的输出特征。它不需要任何上采样操作就可以轻松地集成全局上下文信息。因此,它需要的计算成本可以忽略不计。
3.3 网络架构
利用空间路径和上下文路径,我们提出了用于实时语义分割的BiSeNet,如图2(a)所示。
我们使用预先训练的Xception模型作为上下文路径的主干,并使用三个卷积层和步幅作为空间路径。然后我们融合这两条路径的输出特征来进行最终预测。它可以实现实时性能和高精度的同时。首先,我们关注实际计算方面。虽然空间路径具有较大的空间大小,但它只有三个卷积层。因此,它不是计算密集型的。对于上下文路径,我们使用轻量级模型来快速减少样本。此外,这两条路径同时计算,大大提高了效率。其次,我们讨论了该网络的准确性方面。在本文中,空间路径编码了丰富的空间信息,而上下文路径提供了较大的感受域。它们相互补充以获得更高的性能。
特征融合模块: 这两条路径的特征在特征表示级别上不同。因此,我们不能简单地sum up这些特征。空间路径捕获的空间信息编码了大部分丰富的细节信息。此外,上下文路径的输出特征主要对上下文信息进行编码。换句话说,空间路径的输出特征是低level的,而上下文路径的输出特征是高level的。因此,我们提出了一个特定的特征融合模块来融合这些特征。
给定不同级别的特征,我们首先拼接空间路径和上下文路径的输出特征。然后,我们利用批量归一化[15]来平衡特征的规模(scales)。接下来,我们将连接的特征池化到特征向量,并计算权重向量,如SENet[13]。该权重向量可以对特征重新加权,这相当于特征选择和组合。图2(c)显示了该设计的细节。
损失函数:
在本文中,我们还利用辅助损失函数来监督我们提出的方法的训练。我们使用主损失函数来监控整个BiSeNet的输出。此外,我们添加了两个特定的辅助损失函数来监督上下文路径的输出,如深度监督[35]。所有损失函数均为Softmax损耗,如等式1所示。此外,我们使用参数α来平衡主损失和辅助损失的权重,如等式2所示。本文中的α等于1。联合损失使优化器更容易优化模型。 (1)
其中是网络的输出预测
(2)
其中,是拼接输出的主要损耗。是Xception模型第阶段的输出特征。是第一阶段的辅助损失。在本文中,等于3。L是联合损失函数。在这里,我们只在训练阶段使用辅助损失。
4 实验结果
我们在实时语义分割任务中采用了一种改进的Xception模型[8],即Xception39。我们的实现代码将公开。
我们在城市景观[9]、CamVid[2]和COCOStuff[3]基准上评估了我们提出的BiSeNet。我们首先介绍了数据集和实现协议。接下来,我们细节描述了我们的速度策略,并与其他方法进行了比较。然后,我们研究了我们提出的方法的每个组成部分的影响。我们在Cityscapes验证集上评估所有性能结果。最后,我们报告了与其他实时语义分割算法相比,在Cityscapes、CamVid和COCO Stuff数据集上的准确性和速度结果。
城市景观: 城市景观[9]是一个从汽车角度来看的大型城市街道场景数据集。它包含2975个用于训练的精细注释图像和另外500个用于验证的图像。在我们的实验中,我们只使用精细注释的图像。为了测试,它提供了1525张没有真实背景的图像,以便进行公平比较。这些图像的分辨率均为2048×1024,其中每个像素都被标注为预定义的19个类。
CamVid: CamVid[2]是从驾驶汽车的角度来看的另一个街道场景数据集。它总共包含701幅图像,其中367幅用于训练,101幅用于验证,233幅用于测试。图像分辨率为960×720,有11个语义类别。
COCO Stuff: COCO Stuff[3]扩展了流行COCO[20]数据集的所有164000个图像,其中118000个图像用于训练,5000个图像用于验证,20000个图像用于测试开发,20000个图像用于测试挑战。它涵盖91个stuff类和1个“未标记”类。
4.1 实施协议
在本节中,我们细节阐述了我们的实现协议。
网络: 我们使用三层卷积作为空间路径,使用Exception39模型作为上下文路径。然后,我们使用特征融合模块将这两条路径的特征结合起来,以预测最终结果。空间路径的输出分辨率和最终预测是原始图像的1/8。
训练细节: 在训练中,我们使用小批量随机梯度下降(SGD)[16],批量大小16,动量0.9,权重衰减1e−4。与[5,6,21]类似,我们采用了“Poly”学习速率策略,其中,在每次迭代中,学习率为初始速率乘以,power为0.9。初始学习率为2.5e−2。
数据增强: 在训练过程中,我们在输入图像上使用均值减法、随机水平翻转和随机缩放来扩充数据集。scales包含{0.75,1.0,1.5,1.75,2.0}。最后,我们将图像随机裁剪成固定大小进行训练。
4.2 消融研究
在本小节中,我们细节研究了我们提出的BiSeNet中每个组件的影响。在以下实验中,我们使用Xception39作为基础网络,并在Cityscapes验证数据集[9]上评估我们的方法。
基线: 我们使用在ImageNet数据集[28]上预训练的Xception39网络作为上下文路径的主干。然后我们直接将网络的输出作为原始输入图像进行上采样,如FCN[22]。我们评估了作为基线的基础模型的性能,如表1所示。
U形烧蚀: 我们提出了上下文路径来提供足够的感受野。在这里,我们使用轻量级模型Xception39作为上下文路径的主干,以快速下采样样本。同时,我们使用U形结构[1,25,35]来结合Xception39网络中最后两个阶段的特征,称为U-shape-8s,而不是标准的U形结构(称为U-shape-4s)。数字表示输出特征的下采样因子,如图2所示。使用U-shape-8s结构的原因有两个。首先,U形结构可以恢复一定程度的空间信息和空间大小。其次,如表2所示,与Ushape-4s相比,U-shape-8s结构更快。因此,我们使用U-shape-8s结构,将性能从60.79%提高到66.01%,如表2所示。
空间路径消融: 如第1节所述,现有的实时语义分割任务的现代方法面临空间信息丢失的挑战。因此,我们提出了一种空间路径来保持空间大小并捕获丰富的空间信息。空间路径包含三个步长为2的卷积,然后是批量归一化[15]和ReLU[11]。这将性能从66.01%提高到67.42%,如表3所示。空间路径编码了丰富的空间信息细节。图3显示,BiSeNet可以获得更细节的空间信息,例如一些交通标志。
注意力细化模块: 为了进一步提高性能,我们专门设计了注意力细化模块(ARM)。该模块包含一个全局平均池化,用于将输出特征编码到向量中。然后,我们利用卷积、批量归一化[15]和ReLU单元[11]来计算注意向量。原始特征将由注意力向量重新加权。对于原始特征,无需复杂的上采样操作即可轻松捕获全局上下文信息。ARM的影响如表3所示。
特征融合模块的消融: 基于空间路径和上下文路径,我们需要融合这两条路径的输出特征。考虑到特征的不同层次,空间路径的低层次特征和上下文路径的高层次特征,我们提出了特征融合模块来有效地结合这些特征。首先,我们评估了这些特征和我们提出的特征融合模块的直接求和的效果,如表3所示。比较性能的差距解释了这两条路径的特征依次属于不同的级别。
全局平均池化消融: 我们期望上下文路径能够提供足够的感受野。虽然原始的Xception39模型理论上可以覆盖输入图像的大部分区域,但我们仍然通过全局平均池化进一步扩大了感受野[21]。这可以确保有效的感受野足够大。在本文中,我们在Xception39模型的尾部添加了全局平均池化。然后,我们对全局平均池化的输出进行采样,并将此特征与Xception39模型中最后一阶段的输出进行求和,如DFN[36]。这将性能从67.42%提高到68.42%,这表明了这种设计的效果,如表3所示。
4.3 速度和精度分析
在本节中,我们首先分析了算法的速度。然后,我们报告了我们在Cityscapes[9]、CamVid[2]和COCO Stuff[3]基准上与其他算法进行比较的最终结果。
速度分析: 速度是算法的关键因素,尤其是在实际应用中。我们在不同的上下文下进行实验以进行彻底的比较。首先,我们在表4中显示了FLOPs和参数的状态。FLOPs和参数表示处理该分辨率图像的操作数。为了公平比较,我们选择640×360作为输入图像的分辨率。同时,表5给出了我们的方法与其他方法在不同分辨率的输入图像和不同硬件基准上的速度比较。最后,我们在Cityscapes测试数据集上报告了我们的速度和相应的精度结果。从表6可以看出,与其他方法相比,我们的方法在速度和准确性方面都取得了显著进步。在评估过程中,我们首先将2048×1024分辨率的输入图像缩放为1536×768分辨率,以测试速度和准确性。同时,我们使用[33]中描述的在线自举策略(bootstrapping)计算损失函数。在此过程中,我们不采用任何测试技术,如多尺度或多裁剪测试。
精度分析: 实际上,与其他非实时语义分割算法相比,我们的BiSeNet也可以获得更高的精度。在这里,我们将展示在Cityscapes[9]、CamVid[2]和COCO Stuff[3]基准上的精度结果。同时,为了确保我们的方法的有效性,我们还将其应用于不同的基础模型,例如标准ResNet18和ResNet101[12]。接下来,我们将细节介绍一些训练细节。
城市景观: 如表7所示,我们的方法在不同的模型上也取得了令人印象深刻的结果。为了提高精度,我们随机选取1024×1024个裁剪作为输入。在这里,我们只使用城市景观数据集的精细数据。图4给出了我们结果的一些可视化示例。
CamVid: 表8显示了CamVid数据集的统计精度结果。为了进行测试,我们使用训练数据集和验证数据集来训练我们的模型。在这里,我们使用960×720分辨率进行训练和评估。
COCO Stuff: 我们还在表9中报告了COCO Stuff验证数据集的准确性结果。在训练和验证过程中,我们将输入裁剪为640×640分辨率。为了公平比较,我们不采用多尺度测试。
5 结论
为了同时提高实时语义分割的速度和准确性,本文提出了双边分割网络。我们提出的BiSeNet包含两条路径:空间路径(SP)和上下文路径(CP)。空间路径旨在保留原始图像中的空间信息。上下文路径利用轻量级模型和全局平均池化[6,21,40]快速获得相当大的感受野。凭借丰富的空间细节和较大的感受野,我们在城市景观[9]测试数据集上以105fps的速度实现了68.4%的平均IOU。
BiSeNet V2
BiSeNet V2: Bilateral Network with Guided Aggregation for Real-time Semantic Segmentation
2020.4
作者:Changqian Yu, Changxin Gao, Jingbo Wang, Gang Yu, Chunhua Shen, Nong Sang
原文:https://arxiv.org/abs/2004.02147
开源:https://git.io/BiSeNet
低层细节和高层语义对于语义分割任务都至关重要。然而,为了加速模型推理,当前的方法几乎总是牺牲低级细节,这导致了相当大的准确性下降。我们建议分别处理这些空间细节和类别语义,以实现高精度和高效率的实时语义分割。为此,我们提出了一种在速度和准确性之间进行良好权衡的高效架构,称为双边分割网络(BiSeNet V2)。该架构涉及:(i)细节分支,具有宽通道和浅层,以捕捉低层细节并生成高分辨率特征表示;(ii)语义分支,具有狭窄的通道和深层,以获得高级语义上下文。由于降低了通道容量和快速降采样策略,语义分支是轻量级的。此外,我们设计了一个引导聚合层(Guided Aggregation Layer),以增强双向连接并融合这两种类型的特征表示。此外,还设计了一种增强训练策略来提高分割性能,而不需要任何额外的推理成本。大量的定量和定性评估表明,该架构相对于一些最先进的实时语义分割方法表现良好。具体来说,对于2048x1024输入,我们在一个NVIDIA GeForce GTX 1080 Ti卡上以156 FPS的速度在Cityscapes测试集上实现了72.6%的平均IoU,大大快于现有方法,但我们实现了更好的分割精度。
1 引言
语义分割是为每个像素分配语义标签的任务。这是计算机视觉中的一个基本问题,有着广泛的应用,包括场景理解(周等人,2019)、自动驾驶(Cordts等人,2016;Geiger等人,2012)、人机交互和视频监控等。近年来,随着卷积神经网络(Krizhevsky等,2012)的发展,基于全卷积网络(FCN)(Long等,2015)的一系列语义分割方法(赵等,2017;陈等,2017;余等,2018b;陈等,2018;张等,2018a)不断提高了最先进的性能。
这些方法的高精度取决于其主干网络。主干网有两种主要架构:(i)扩张的主干网,删除下采样操作并对相应的滤波器核进行上采样,以保持高分辨率特征表示(Chen等人,2015、2018;Zhao等人,2017、2018b;Fu等人,2019;Yu等人,2020),如图2(a)所示。(ii)编码器-解码器主干,具有自顶向下和跳连,以恢复解码器部分中的高分辨率特征表示(Lin等人,2017;Peng等人,2017;Yu等人,2018b),如图2(b)所示。然而,这两种架构都是为一般语义分割任务设计的,对推理速度和计算成本关注较少。在扩张主干中,扩张卷积非常耗时,去除下采样操作会带来巨大的计算复杂度和内存占用。编码器-解码器架构中的许多连接(connections)对内存访问成本不太友好(马等人,2018年)。然而,实时语义分割应用需要高效的推理速度。
面对这一需求,基于两种主干网络,现有方法(Badrinarayanan等人,2017;Paszke等人,2016;Zhao等人,2018a;Romera等人,2018;Mazzini,2018)主要采用两种方法来加速模型:(i)输入限制。在相同的网络结构下,输入分辨率越小,计算成本越低。为了实现实时推理速度,许多算法(Zhao等人,2018a;Romera等人,2018;Mazzini,2018;Romera等人,2018)试图限制输入大小以降低整体计算复杂度;(ii)通道修剪。这是一种直接的加速方法,尤其是在早期阶段修剪通道以提高推理速度(Badrinarayanan等人,2017;Paszke等人,2016;Chollet,2017)。虽然这两种方法都可以在一定程度上提高推理速度,但它们牺牲了低层细节和空间容量,导致准确率显著降低。因此,为了同时实现高效率和高精度,开发一种用于实时语义分割任务的特定架构具有挑战性和重要意义。
我们观察到,低层细节和高层语义对语义分割任务都至关重要。在一般的语义分割任务中,既深又宽的网络同时对这两种信息进行编码。然而,在实时语义分割任务中,我们可以分别处理空间细节和类别语义,以实现准确性和推理速度之间的权衡。
为此,我们提出了一种双路径结构,称为双边分割网络(BiSeNet V2),用于实时语义分割。一种路径被设计为用宽通道和浅层捕捉空间细节,称为细节分支。相反,引入了另一种途径来提取通道窄、层次深的类别语义,称为语义分支。语义分支只需要一个大的感受域来捕捉语义上下文,而细节信息可以由细节分支提供。因此,可以使用更少的通道和快速下采样策略使语义分支变得非常轻量级。将这两种类型的特征表示合并,以构建更强、更全面的特征表示。如图2(c)所示,该概念设计为实时语义分割提供了一个高效的架构。
具体来说,在本研究中,我们设计了一个引导聚合层来有效地合并这两种类型的特征。为了在不增加推理复杂度的情况下进一步提高性能,我们提出了一种具有一系列辅助预测头的增强训练策略,这些辅助预测头可以在推理阶段丢弃。大量的定量和定性评估表明,所提出的架构相对于最先进的实时语义分割方法表现良好,如图1所示。
主要贡献总结如下:
–我们提出了一种高效的双通道架构,称为双边分割网络,用于实时语义分割,它分别处理空间细节和类别语义。
–对于语义分支,我们基于深度卷积设计了一个新的轻量级网络,以增强感受野并捕获丰富的上下文信息。
–引入了增强训练策略,以在不增加推理成本的情况下进一步提高分割性能。
–我们的架构在城市景观(Cordts等人,2016年)、CamVid(Brostow等人,2008a)和COCO Stuff(Caesar等人,2018年)的不同基准上取得了令人印象深刻的成果。更具体地说,我们在一个NVIDIA GeForce GTX 1080Ti卡上以156 FPS的速度在Cityscapes测试集上获得了72.6%平均IoU的结果。
这项工作的初步版本发表在(Yu等人,2018a)。我们将会议版本扩展如下。(i) 我们简化了原始结构,提出了一种高效的实时语义分割架构。我们删除了原始版本中耗时的跨层连接,以获得更清晰、更简单的架构。(ii)我们重新设计了整体架构,具有更紧凑的网络结构和精心设计的组件。具体来说,我们深化了细节路径以编码更多细节。我们基于语义路径的深度卷积设计了轻量级组件。同时,我们提出了一个有效的聚合层来增强两条路径之间的相互连接。(iii)我们进行了全面的烧蚀实验,以详尽说明所提出方法的有效性和效率。(iv)在我们之前的工作中,我们显著提高了该方法的准确性和速度,即对于2048×1024输入,在一个NVIDIA GeForce GTX 1080Ti卡上以156 FPS的速度在Cityscapes测试集上实现了72.6%的平均IoU。
2 相关工作
近年来,图像语义分割取得了重大进展。在本节中,我们的讨论主要集中在与我们的工作最相关的三组方法上,即通用语义分割方法、实时语义分割方法和轻量级架构。
2.1 通用语义分割
基于阈值选择(Otsu,1979)、区域生长(Vincent和Soille,1991)、超像素(Ren和Malik,2003;Achanta等人,2012;Van den Bergh等人,2012)和图(Boykov和Jolly,2001;Rother等人,2004)的传统分割方法采用手工特征来解决这个问题。最近,基于FCN的新一代算法(Long等人,2015;Shelhamer等人,2017)在不同基准上不断提高最先进的性能。各种方法基于两种类型的主干网络:(i)扩张主干网络;(ii)编码器-解码器主干网络。
一方面,扩张主干删除下采样操作,并对卷积滤波器进行上采样,以保留高分辨率特征表示。由于扩张卷积的简单性,各种方法(陈等,2015、2018;赵等,2017;王等,2018a;张等,2018a;余等,2020)在其上开发了不同的新型有效成分。Deeplabv3(Chen等人,2017)设计了一个孔洞的空间金字塔池化来捕捉多尺度上下文,而PSPNet(Zhao等人,2017)在扩展主干上采用了金字塔池化模块。同时,一些方法引入了注意力机制,例如自注意力(袁和王,2018;傅等人,2019;俞等人,2020)、空间注意力(赵等人,2018b)和通道注意力(张等人,2018a),以捕捉基于扩张主干的长程上下文。
另一方面,编码器-解码器主干网络添加了额外的自顶向下和横向连接,以恢复解码器部分的高分辨率特征映射。FCN和Hypercolumns(Hariharan等人,2015)采用跳连来集成低级特征。同时,U-net(Ronneberger等人,2015年)、具有保存池化索引的SegNet(Badrinarayanan等人,2017年)、具有多路径细化的RefineNet(Lin等人,2017年)、具有逐步重建的LRR(Ghiasi和Folkes,2016年),具有“大内核”卷积的GCN(Peng等人,2017)和具有通道注意模块的DFN(Yu等人,2018b)将该主干网络合并以恢复细节信息。HRNet(Wang等人,2019)采用多分支来保持高分辨率。
这两种主干网络都使用宽而深的网络同时编码低层细节和高层语义。虽然这两种类型的主干网络都达到了最先进的性能,但大多数方法的推理速度较慢。在本研究中,我们提出了一种新颖高效的架构,分别处理空间细节和类别语义,以实现分割精度和推理速度之间的良好折衷。
2.2 实时语义分割
当越来越多的实际应用需要快速交互和响应时,实时语义分割算法越来越受到关注。SegNet(Badrinarayanan等人,2017)使用小型网络结构和跳连来实现快速。E-Net(Paszke等人,2016)从头开始设计了一个轻量级网络,并提供了极高的速度。ICNet(Zhao等人,2018a)使用图像级联来加速算法,而DLC(Li等人,2017)使用级联网络结构来减少“容易区域”中的计算。ERFNet(Romera等人,2018)采用残差连接和因子卷积来保持效率和准确性。同时,ESPNet(Mehta等人,2018、2019)设计了一种高效的空间金字塔扩张卷积,用于实时语义分割。GUN(Mazzini,2018)采用引导式上采样模块融合多分辨率输入的信息。DFANet(Li等人,2019b)重用特征以增强特征表示并降低复杂性。虽然这些方法可以实现实时推理速度,但它们在损失低级细节的同时,极大地牺牲了准确性和效率。在这项工作中,我们同时考虑了低层细节和高层语义,以实现高精度和高效率。
2.3 轻型架构
继分组/深度卷积和可分离卷积的开创性工作之后,轻量级架构设计取得了快速发展,包括Xception(Chollet,2017)、MobileNet(Howard等人,2017;Sandler等人,2018)、ShuffleNet(Zhang等人,2018b;Ma等人,2018),等等。这些方法在分类任务的速度和准确性之间实现了有价值的权衡。在本研究中,考虑到实时语义分割的计算复杂度、内存访问成本和实际推理速度,我们设计了一个轻量级网络。
3 BiSeNetV2的核心概念
我们的架构由细节分支(第3.1节)和语义分支(第3.2节)组成,由聚合层(第3.3节)合并。在本节中,我们将演示架构的核心概念,如图2(c)所示。
3.1 细节分支
细节分支负责空间细节,这是低级信息。因此,该分支需要丰富的通道容量来编码丰富的空间细节信息。同时,由于细节分支只关注低级细节,因此我们可以为该分支设计一个小步幅的浅层结构。总的来说,细节分支的关键概念是对空间细节使用宽通道和浅层。此外,该分支中的特征表示具有较大的空间大小和较宽的通道。因此,最好不要采用残差连接,这会增加内存访问成本并降低速度。
3.2 语义分支
与细节分支并行,语义分支被设计为捕捉高层语义。该分支具有较低的通道容量,而空间细节可以由细节分支提供。相反,在我们的实验中,语义分支与细节分支的通道数之比为λ(λ<1),这使得该分支变得轻量级。实际上,语义分支可以是任何轻量级卷积模型(例如,(Chollet,2017;Iandola等人,2016;Howard等人,2017;Sandler等人,2018;Zhang等人,2018b;Ma等人,2018))。同时,语义分支采用快速下采样策略,以提高特征表示level并快速扩大感受野。高级语义需要大的感受域。因此,语义分支采用全局平均池化(Liu等人,2016)嵌入全局上下文响应。
3.3 聚合层
细节分支和语义分支的特征表示是互补的,其中一个不知道另一个的信息。因此,设计了一个聚合层来合并这两种类型的特征表示。由于快速下采样策略,语义分支输出的空间维度小于细节分支。我们需要对语义分支的输出特征映射进行上采样,以匹配细节分支的输出。
融合信息有几种方式,例如简单求和、串联和一些精心设计的操作。考虑到准确性和效率,我们对不同的融合方法进行了实验。最后,我们采用了双向聚合方法,如图3所示。
4 双边分割网络
我们的BiSeNet概念是通用的,可以用不同的卷积模型(He等人,2016;Huang等人,2017;Chollet,2017;Iandola等人,2016;Howard等人,2017;Sandler等人,2018;Zhang等人,2018b;Ma等人,2018)和任何特定设计来实现。主要有三个关键概念:(i)细节分支具有高通道容量和浅层,空间细节的感受野较小;(ii)语义分支的通道容量较低,层次较深,感受野较大。(iii)设计了一个有效的聚合层来融合这两种类型的表示。
在本小节中,根据拟议的概念设计,我们演示了总体架构和一些其他特定设计的实例,如图3所示。
4.1 细节分支
表1中细节分支的实例化包含三个阶段,每一层都是卷积层,然后是批量归一化(Ioffe和Szegedy,2015)和激活函数(Glorot等人,2011)。每个阶段的第一层具有步长s=2,而同一阶段的其他层具有相同数量的滤波器器和输出特征图size。因此,该分支提取的输出特征映射是原始输入的1/8。由于通道容量高,该细节分支编码了丰富的空间细节。由于通道容量高和空间维度大,残差结构(He等人,2016)将增加内存访问成本(Ma等人,2018)。因此,该分支主要遵循VGG网络的原理(Simonyan和Zisserman,2015)来堆叠层。
4.2 语义分支
考虑到同时具有较大的感受野和高效的计算,我们受轻量级识别模型的哲学启发,设计了语义分支,例如Xception(Chollet,2017)、MobileNet(Howard等人,2017;Sandler等人,2018;Howard等人,2019)、ShuffleNet(Zhang等人,2018b;Ma等人,2018)。语义分支的一些关键特征如下。
Stem Block
受(Szegedy等人,2017;Shen等人,2017;Wang等人,2018b)的启发,我们采用Stem Block作为语义分支的第一阶段,如图4所示。它使用两种不同的下采样方式来缩小特征表示。然后将两个分支的输出特征串联为输出。该结构具有高效的计算成本和有效的特征表达能力。
上下文嵌入块
如第3.2节所述,语义分支需要较大的感受野来捕捉高层语义。受(余等,2018b;刘等,2016;赵等,2017;陈等,2017)的启发,我们设计了上下文嵌入块。该块使用全局平均池化和残差连接(He等人,2016)有效嵌入全局上下文信息,如图4所示。
聚集和扩展层
利用深度卷积的优势,我们提出了聚集和扩展层,如图5所示。聚集和扩展层包括:(i)一个3×3卷积,用于有效聚集特征响应并扩展到更高维空间;(ii)在扩展层的每个单独输出通道上独立执行的3×3深度卷积;(iii)1×1卷积作为投影层,将深度卷积的输出投影到低通道容量空间。当stide=2时,在主分支上我们采用两个3×3深度方向卷积,进一步扩大感受野,并在跳连上采用一个3×3可分离卷积。最近的工作(Tan等人,2019;Howard等人,2019)大量采用5×5可分离卷积来扩大感受野,在某些情况下,它比两个3×3可分离卷积具有更少的失败次数。在这一层中,我们将可分离卷积中的5×5深度卷积替换为两个3×3深度卷积,这两个卷积具有更少的FLOPs和相同的感受野。
与MobileNetv2中的反向瓶颈相反,GE层还有一个3×3卷积。然而,这一层也有利于计算成本和内存访问成本(马等人,2018;桑德勒等人,2018),因为3×3卷积在CUDNN库中进行了专门优化(Chetlur等人,2014;马等人,2018)。同时,由于该层的存在,GE层比反向瓶颈具有更高的特征表达能力。
4.3 双边引导聚合
有一些不同的方式可以合并两种类型的特征响应,即元素求和和和级联。然而,两个分支的输出具有不同的特征表示级别(level)。细节分支用于低层,而语义分支用于高层。因此,简单的组合忽略了这两种类型信息的多样性,导致性能较差和难以优化。
基于观察结果,我们提出了双边引导聚合层来融合来自两个分支的互补信息,如图6所示。该层利用语义分支的上下文信息来引导细节分支的特征响应。在不同的尺度引导下,我们可以捕捉到不同的尺度特征表示,这内在地编码了多尺度信息。同时,与简单的组合相比,这种引导方式可以实现两个分支之间的高效通信。
4.4 Booster训练策略
为了进一步提高分割精度,我们提出了一种增强训练策略。顾名思义,它类似于火箭Booster:它可以在训练阶段增强特征表示,并且可以在推理阶段丢弃。因此,在推理阶段增加的计算复杂度很小。如图3所示,我们可以将辅助分割头插入语义分支的不同位置。在第5.1节中,我们分析了插入不同位置的影响。图7显示了分割头的细节。我们可以通过控制通道尺寸来调整辅助分割头和主分割头的计算复杂度。
5 实验结果
在本节中,我们首先介绍数据集和实现细节。接下来,我们研究了我们提出的方法的每个组成部分对城市景观验证集的影响。最后,我们报告了与其他算法相比,我们在不同基准上的最终精度和速度结果。
数据集。
城市景观(Cordts等人,2016年)侧重于从汽车角度对城市街道场景的语义理解。数据集分为训练集、验证集和测试集,分别有2975500和1525张图像。在我们的实验中,我们只使用精细的注释图像来验证我们提出的方法的有效性。注释包括30个类,其中19个用于语义分割任务。该数据集具有2048×1024的高分辨率,对实时语义分割具有挑战性。
Cambridge driving-Labeled Video Database(CamVid)(Brostow等人,2008a)是从驾驶汽车的角度来看的道路场景数据集。它包含701幅从视频序列中提取的分辨率为960×720的图像。继开创性工作(Brostow等人,2008b;Sturgess等人,2009;Badrinarayanan等人,2017)之后,图像被分为367个用于训练,101个用于验证,233个用于测试。我们使用提供的32个候选类别中的11个类的子集与其他方法进行公平比较。忽略不属于这些类别之一的像素。
COCO Stuff(Caesar等人,2018)使用密集的Stuff注释增强了流行COCO(Lin等人,2014)数据集的10K复杂图像。对于实时语义分割来说,这也是一个具有挑战性的数据集,因为它有更复杂的类别,包括91个要评估的事物和91个要评估的东西类。为了进行公平比较,我们遵循了中的分割(Caesar等人,2018):9K图像用于训练,1K图像用于测试。
训练
我们的模型是以“kaiming normal” 初始化方式从头开始训练的(何等人,2015)。我们使用0.9动量的随机梯度下降(SGD)算法来训练我们的模型。对于所有数据集,我们采用16个批量。对于城市景观和CamVid数据集,权重衰减为0.0005权重衰减,而对于COCOStuff数据集,权重衰减为0.0001。我们注意到,权重衰减正则化仅适用于卷积层的参数。初始速率设置为5e−2采用初始速率乘以(1)的“Poly”学习速率策略− iters iter max)每次迭代的幂为0.9。此外,我们分别对Cityscapes数据集、CamVid数据集和COCO Stuff数据集的150K、10K和20K迭代训练模型。
对于增强,我们随机水平翻转、随机缩放并将输入图像随机裁剪到固定大小以进行训练。随机尺度包含{0.75,1,1.25,1.5,1.75,2.0}。城市景观的裁剪分辨率为2048×1024,CamVid为960×720,COCO Stuff为640×640。此外,城市景观的增强输入将调整为1024×512分辨率,以训练我们的模型。
推论
我们不采用任何评估技巧,例如滑动窗口评估和多尺度测试,这可以提高准确性,但耗时。对于2048×1024分辨率的输入,我们首先将其调整为1024×512分辨率以进行推断,然后将预测调整为输入的原始大小。我们仅使用一个GPU卡测量推断时间,并重复5000次迭代以消除误差波动。我们注意到,调整大小的时间包括在推断时间测量中。换句话说,在测量推理时间时,实际输入大小为2048×1024。同时,我们对Cityscapes数据集和CamVid数据集采用联合平均交集(mIoU)的标准度量,而对COCOStuff数据集采用联合平均交集和像素精度(pixAcc)。
设置。
我们在PyTorch 1.0上进行了实验。推理时间的测量在一台NVIDIA GeForce GTX 1080Ti上执行,CUDA 9.0、CUDNN 7.0和TensorRT v5.1.51。
5.1城市景观烧蚀评估
本节介绍了烧蚀实验,以验证我们方法中每个组件的有效性。在以下实验中,我们在城市景观(Cordts等人,2016)训练集上训练我们的模型,并在城市景观验证集上进行评估。
个别途径。
我们首先具体探讨了个别途径的影响。表2中的前两行说明了仅使用一条路径的分割精度和计算复杂性。细节分支缺乏足够的高层语义,而语义分支缺乏低层空间细节,这导致了不满意的结果。图8说明了对细节分支的空间细节的逐渐关注。表2中的第二组表明,两个分支的不同组合都优于仅一个通路模型。这两个分支可以提供互补表示,以实现更好的分割性能。仅语义分支和细节分支仅达到平均IoU的64.68%和62.35%。然而,通过简单求和,语义分支可以为细节分支带来6%以上的改进,而细节分支可以为语义分支获得4%的增益。这一观察结果表明,两个分支的表示是互补的。
聚合方法。
我们还研究了两个分支的聚合方法,如表2所示。为了有效和高效的聚合,我们设计了双边引导聚合层,该层采用高层语义作为引导来聚合多尺度低层细节。我们还展示了两个没有双边引导聚合层作为原始聚合基线的变体:两个分支输出的求和和和级联。为了公平比较,求和和和级联的输入分别通过一个可分离层。图9展示了细节分支、语义分支和这两个分支的聚合的可视化输出。这说明细节分支可以提供足够的空间细节,而语义分支捕获语义上下文。
表3展示了一系列关于语义分支设计的分析实验。
语义分支的通道容量。
如第3.2节和第4.2节所述,语义分支负责高级语义,而不关心空间细节。因此,语义分支可以变得非常轻量级,并且通道容量较低,这可以通过λ的通道容量比进行调整。表4a说明了变化λ的细节比较实验。
不同的λ会对仅细节基线带来不同程度的改善。即使λ=1/16,语义分支的第一层也只有4个通道维度,这也带来了6%(62.35%)→ 68.27%)比基线改善。这里,我们使用λ=1/4作为默认值。
语义分支的块设计。
继先驱工作(Sandler等人,2018;Howard等人,2019)之后,我们设计了一个聚集和扩展层,如第4.2节所述,如图5所示。主要改进包括两个方面:(i)我们采用一个3×3卷积作为聚集层,而不是MobileNetV2反向瓶颈中的一个点方向卷积(Sandler等人,2018);(ii)当步长=2时,我们使用两个3×3深度卷积来代替5×5深度卷积。
表4b显示了我们的块设计的改进。聚集和扩展层可以扩大感受野,有效地捕捉高层语义。
GE层扩张率。
GE层中的第一个3×3卷积层也是一个扩展层,可以将输入投影到高维空间。
它在内存访问成本方面具有优势(Sandler等人,2018年;Howard等人,2019年)。c的扩张比可以控制该层的输出尺寸。表4c研究了变化c的影响。令人惊讶的是,即使c=1,语义分支也可以将基线提高4%(62.35%)→ 平均IoU为67.48%,验证了轻量级语义分支的有效性。
Booster训练策略。
我们提出了一种增强训练策略,以进一步提高分割精度,如第4.4节所述。我们在训练阶段将图7所示的分割头插入语义分支的不同位置,这些位置在推理阶段被丢弃。因此,它们在推理阶段增加的计算复杂度很小,与火箭Booster类似。表4显示了不同位置对插入分割头的影响。可以看出,增强训练策略可以明显提高分割精度。我们选择了表4第三行的配置,这进一步将平均IoU提高了3%以上(69.67%)→ 73.19%),而不牺牲推理速度。基于这种配置,我们采用了在线自举策略(Wu等人,2016),以进一步提高性能。
5.2泛化能力
在本节中,我们主要探讨我们提出的架构的泛化能力。首先,我们研究了表5中更广泛模型和更深入模型的性能。接下来,我们用其他一些通用轻量级模型替换语义分支,以探索表6中的兼容性。
推广到大型模型。
虽然我们的架构主要用于轻量级任务,例如实时语义分割,但BiSeNet V2也可以推广到大型模型。我们主要从两个方面扩展了该架构:(i)更宽的模型,由宽度乘法器α控制;(ii)深度乘子d控制的更深层次模型。表5显示了具有不同宽度乘子α和不同深度乘子d的更宽模型的分割精度和计算复杂度。根据实验,我们选择α=2.0和d=3.0来构建我们的大型架构,称为BiSeNetV2 large,其达到75.8%的mIoU和GFLOP。
与其他型号的兼容性。
BiSeNetV2是一种具有两个分支的通用架构。在这项工作中,我们为语义分支设计了一些特定的块。语义分支可以是任何轻量级卷积模型(He等人,2016;Howard等人,2017)。因此,为了探索我们架构的兼容性,我们对不同的通用轻量级模型进行了一系列实验。表6显示了不同模型的组合结果。
5.3性能评估
在本节中,我们在三个基准数据集上比较了我们的最佳模型(BiSeNetV2和BiSeNetV2 Large)与其他最先进的方法:Cityscapes、CamVid和COCO Stuff。
城市景观。
我们在城市景观测试集上给出了所提出的BiSeNetV2的分割精度和推理速度。我们使用2048×1024输入的训练集和验证集来训练我们的模型,首先在模型中将其调整为1024×512分辨率。然后在测试集上评估分割精度。推断时间的测量在一个NVIDIA GeForce 1080Ti卡上进行。表7报告了我们的方法和现有方法的比较结果。第一组是非实时方法,包括CRF-RNN(Zheng等人,2015)、DeeplabCRF(Chen等人,2015)、FCN-8S(Long等人,2015)、Dillact10(Yu和Koltun,2016)、LRR(Ghiasi和Folkes,2016)、Deeplabv2 CRF(Chen等人,2016)、FRRN(Pohlen等人,2017)、RefineNet(Lin等人,2017)、DUC(Wang等人,2018a)、PSPNet(Zhao等人,2017)。实时语义分割算法列在第二组中,包括ENet(Paszke等人,2016)、SQ(Treml等人,2016)、ESPNet(Mehta等人,2018)、ESPNetV2(Mehta等人,2019)、ERFNet(Romera等人,2018)、Fast SCNN(Poudel等人,2019)、ICNet(Zhao等人,2018a)、DABNet(Li等人,2019a)、DFANet(Li等人,2019b)、GUN(Mazzini,2018)、SwiftNet(Orsic等人,2019),BiSeNetV1(Yu等人,2018a)。第三组是我们的方法,具有不同程度的复杂性。如表7所示,我们的方法实现了72.6%的平均IoU,每秒156帧,并产生75.3%的平均IoU,每秒47.3帧,这是精度和速度之间的最先进的权衡。这些结果甚至优于表7第二组中的几种非实时算法。我们注意到,许多非实时方法可能采用一些评估技巧,例如多尺度测试和多裁剪评估,这可以提高准确性,但耗时。因此,我们不会出于速度考虑而采用此策略。为了更好地观察,我们在图1中说明了性能和速度之间的权衡。为了突出我们方法的有效性,我们还在图10中展示了一些城市景观上BiSeNetV2的视觉示例。
CamVid。
表8显示了CamVid数据集上的统计精度和速度结果。在推理阶段,我们使用训练数据集和验证数据集以960×720分辨率输入来训练我们的模型。我们的模型与一些非实时算法进行了比较,包括SegNet(Badrinarayanan等人,2017)、Deeplab(Chen等人,2015)、RTA(Huang等人,2018)、Digract8(Yu和Koltun,2016)、PSPNet(Zhao等人,2017)、VideoGCRF(Chandra等人,2018)和DenseDecoder(Bilinski和Prisacariu,2018)以及包含ENet(Paszke等人,2016)、ICNet(Zhao等人,2018a)的实时算法,DABNet(Li等人,2019a)、DFANet(Li等人,2019b)、SwiftNet(Orsic等人,2019)、BiSeNetV1(Yu等人,2018a)。BiSeNetV2比其他方法具有更快的推理速度。除了效率外,我们的精度结果也优于这些工作。此外,我们还研究了预训练数据集对CamVid的影响。表8的最后两行表明,在CamVid测试集上,城市景观的预训练可以极大地将平均IoU提高6%以上。
可可的东西。
我们还在表9中报告了COCO-Stuff验证数据集上的精度和速度结果。在推理阶段,我们将输入填充到640×640分辨率。为了公平比较(龙等人,2015;陈等人,2016;赵等人,2017,2018a),我们没有采用任何耗时的测试技巧,例如多尺度和翻转测试。即使与先驱工作相比,该数据集中的类别更为复杂,我们的BiSeNetV2仍具有更高的效率,并达到了相当的准确性。
6结束语
我们观察到,语义分割任务既需要低级细节,也需要高级语义。我们提出了一种新的架构来分别处理空间细节和类别语义,称为双边分割网络(BiSeNetV2)。BiSeNetV2框架是一种通用架构,可由大多数卷积模型实现。我们的BiSeNetV2实例在分割精度和推理速度之间实现了良好的权衡。我们希望这种通用架构BiSeNetV2将促进语义分割的进一步研究。