今天来分享下一点需要掌握的储备知识,一个很经典的模型——U-Net。
U-Net
长连接优点:U-Net中的长连接是有必要的,它联系了输入图像的很多信息,有助于还原降采样所带来的信息损失,在一定程度上,我觉得它和残差的操作非常类似,也就是residual操作,x+f(x)。我不知道大家是否同意这一个观点。因此,我的建议是最好给出一个综合长连接和短连接的方案。
U-Net++
把原来空心的U-Net填满了,优势是可以抓取不同层次的特征,将它们通过特征叠加的方式整合,不同层次的特征,或者说不同大小的感受野,对于大小不一的目标对象的敏感度是不同的。
一个非常直接的解决方案就是深监督,具体的实现操作就是在图中
后面加一个1x1的卷积核,相当于去监督每个level,或者每个分支的U-Net的输出。
为什么可以剪枝,这张图特别的精彩。关注被剪掉的这部分,你会发现,在测试的阶段,由于输入的图像只会前向传播,扔掉这部分对前面的输出完全没有影响的,而在训练阶段,因为既有前向,又有反向传播,被剪掉的部分是会帮助其他部分做权重更新的。这两句话同样重要,我再重复一遍,测试时,剪掉部分对剩余结构不做影响,训练时,剪掉部分对剩余部分有影响。这意味什么?
因为在深监督的过程中,每个子网络的输出都其实已经是图像的分割结果了,所以如果小的子网络的输出结果已经足够好了,我们可以随意的剪掉那些多余的部分了。
对于为什么要在测试的时候剪枝,而不是直接拿剪完的L1,L2,L3训练,我们的解释其实上一页ppt上面写了,剪掉的部分在训练时的反向传播中是有贡献的,如果直接拿L1,L2,L3训练,就相当于只训练了不同深度的U-Net,最后的结果会很差。
第二个问题,如何去决定剪多少,还是比较好回答的。因为在训练模型的时候会把数据分为训练集,验证集和测试集,训练集上是一定拟合的很好的,测试集是我们不能碰的,所以我们会根据子网络在验证集的结果来决定剪多少。所谓的验证集就是一开始从训练集中分出来的数据,用来监测训练过程用的。
UNet++的第一个优势就是精度的提升,这个应该它整合了不同层次的特征所带来的,第二个是灵活的网络结构配合深监督,让参数量巨大的深度网络在可接受的精度范围内大幅度的缩减参数量。
Non-local U-Net 论文《Non-local U-Nets for Biomedical Image Segmentation》
目前的Unet结构存在两个问题:
1.四次down-sample参数量太多、下采样会丢失很多信息以及encoder的conv、pooling都是local算子,这里的local是相对于global而言的,我一次卷积操作感受野kernel_size大小,是局部(local)的,像Full-Connection就是全局(global)的,所以我想要获取global的信息就需要很深的编码器(感受野随conv的增加而增加);
2.上采样的过程涉及恢复图像的空间信息,如果只是局部信息而不考虑全局信息就很难做到。
解决方法:
针对以上两个问题,作者给出了解决方法(想到需要global info我们可能首先会想到加FC Layer,但它参数量实在太大了,这也是CNN比FCN的先进性所在,现在更想去看看作者是怎么实现的啦!)
作者提出了一种基于self-attention的全局聚合块(global aggregation block),使用这个block无需深度编码器就能聚合全局信息;
此block进一步扩展到up-sample。
整体网络:
整体的网络结构,还是基于经典的Unet改的。up-sample和down-sample都是三次,skip-connection采用的是element-wise相加操作而不是concat操作,这样作者解释有两个优点:
※减少trainable参数(因为feature map减半了);
※加操作就像residual block,所以拥有残差块的所有优点。
Residual blocks
(a)示出具有两个连续卷积层的规则剩余块。这里,在每个卷积层之前使用带有ReLU6激活函数的批处理归一化。在该框架中,这个块被用作输入块。输出块进行1×1×1的步长为1的卷积。此外,在对跳转连接求和之后,我们插入图2(b)所示的下采样剩余块。采用步长为2的1×1×1卷积代替同一残差连接,从而相应地调整特征地图的空间尺寸。图2(c)展示了我们的底部模块,剩余连接被应用于所提的全局聚集块上。上采样剩余块如图2(d)所示。与图2(b)中的下采样块类似,同一剩余连接被步长为2的3×3×3反褶积代替,另一个分支是上采样全局聚集块。
Global Aggregation Block
提出了一种全局聚集块,它能够从任意大小的特征映射中融合全局信息。我们进一步推广它来处理下采样和上采样,使它成为一个可以在深度学习模型中任何地方使用的块。让X表示全局聚合块的输入,Y表示输出。为了简单起见,我们使用conv1n来表示1×1×1的卷积,其步长为1和N个输出信道。请注意,Conv 1ndo不会更改空间大小。提出的块的第一步是生成查询(Q)、键(K)和值(V)矩阵
Q、K和V矩阵的每一行分别表示一个查询向量、一个键向量和一个值向量。请注意,查询向量与键向量具有相同的维度。同时,密钥向量的个数与值向量的个数相同,表示一对一的对应关系。第二步,注意机制应用于Q、K和V
A经矩阵乘除法变成D_qH_qW_q * DHW维的,O经矩阵乘法变成D_qH_qW_q * C_v维的。
第三步由O生成Y
U-Net3+
Unet进化史:
与UNet和UNet++相比,UNet 3+结合了多尺度特征,重新设计了跳跃连接,并利用多尺度的深度监督,UNet
3+提供更少的参数,但可以产生更准确的位置感知和边界增强的分割图。
全尺寸跳跃连接
全尺度深度监督
为了从全尺度的聚合特征图中学习层次表示,UNet 3+进一步采用了全尺度深度监督。不同于UNet++,UNet 3+中每个解码器阶段都有一个侧输出,是金标准(ground truth,GT)进行监督。为了实现深度监督,每个解码器阶段的最后一层被送入一个普通的3×3卷积层,然后是一个双线性上采样和一个sigmoid函数。(这里的上采样是为了放大到全分辨率)
分类导向模块GCM
在大多数医学图像分割中,非器官图像出现假阳性是不可避免的。它很有可能是由于来自背景的噪声信息停留在较浅的层次,导致过度分割的现象。为了实现更精确的分割,通过增加一个额外的分类任务来解决这个问题,这个任务是为预测输入图像是否有器官而设计的。
语义分割网络在特征融合时有2种办法:
FCN式的逐点相加(即跳跃结构),对应caffe的EltwiseLayer层,对应tensorflow的tf.add()
U-Net式的channel维度拼接融合(即copy and crop),对应caffe的ConcatLayer层,对应tensorflow的tf.concat()
Reference:
1.https://zhuanlan.zhihu.com/p/44958351(U-Net++)
2.https://zhuanlan.zhihu.com/p/163507824(Non local U-Net)
3.https://zhuanlan.zhihu.com/p/136164721(U-Net3+)
4.https://zhuanlan.zhihu.com/p/118540575(U-Net+与FCN的区别)
5.https://blog.csdn.net/weixin_40519315/article/details/104412740(FCN+与CNN的区别)
6.https://www.cnblogs.com/xiaoboge/p/10502697.html(全卷积网络FCN详解)