U-Net: Convolutional Networks for Biomedical Image Segmentation
PDF :https://arxiv.org/pdf/1505.04597.pdf
(1)网络结构
U-Net是一个生物图像分割的网络,因为其形状像U型,得名U-Net。
U-net网络非常简单,前半部分作用是特征提取,后半部分是上采样。这样的结构也叫做编码器-解码器结构。U-net与其他常见的分割网络有一点非常不同的地方:U-net采用了完全不同的特征融合方式:拼接,U-net采用将特征在channel维度拼接在一起,形成更厚的特征。而FCN融合时使用的对应点相加,并不形成更厚的特征。
已有的研究中如Ciresan,取以图像中每个像素点为中心的局部区域(patch),进行训练,相对于单张图片增大了数据集。但是存在以下的缺点:1、由于每个patch之间可能存在很多重叠,造成了重复训练;2、由于全连接层的使用,大的patch需要更多的最大池化层,而最大池化层丢失信息严重,特别是位置准确率。因此考虑不同尺度特征图的信息可以同时兼顾位置和内容。
U-Net左半部分采用2个3*3的卷积(无填充)接一个Relu和一个2*2的最大池化(步长为2),每次下采样后,通道数翻倍。右半部分通过上采样增大特征图的分辨率,为了精准定位,左右两边对应大小的特征图进行拼接,增大了特征图的通道,可以使内容信息传播到更深的层中(这里主要数考虑细胞边缘等信息,之前的下采样造成了很多信息损失,在高分辨率和更抽象特征当中做一个折衷),以获得更准确的分割。
最后用过1*1 的卷积将通道数压缩到分类的数目。整个网络结构中一共23个卷积层。由于没有全连接层,因此可以输入任意尺度(满足下采样要求的)的图像进行端到端的训练。这里示意图中最终分为2类,例如第一张表示的是第一类的得分(即每个像素点对应第一类都有一个得分),第二张表示第二类的得分heatmap,然后作为softmax函数的输入,算出概率比较大的softmax类,选择它作为输入给交叉熵进行反向传播训练
(2)损失函数:
能量函数(the energy function)是通过与交叉熵损失函数相结合的最终特征图,并利用像素级的soft-max函数来计算的。加权交叉熵定义为:
其中,l={1,...,K}表示每个像素正确的标签,权重函数w。这里相当于最大似然估计,求最大值,这里的损失函数是求最大值,也就是无限接近于0的值,因为p(x)值是大于0小于1的,这里的log肯定就是小于0 的,所以0就是它的最大值。
soft-max函数定义为:
权重函数定义为:
权重初始化基于标准差为√(2/N)的高斯分布,其中N表示每个神经元的输入结点数。例如3*3的卷积核,64通道时N = 3*3*64 = 576
训练过程使用带动量的随机梯度下降,动量大小为0.99。
(3)数据扩增:
在小的数据集上做了大量的数据扩增,由于数据量比较小,我们使用了弹性形变的方法进行数据扩展,对于医疗数据来说变形是生物组织最常见的变异,通过这种方法可以对变形进行模拟。这个是3*3的网格上使用随机位移矢量产生平滑形变,其中位移来自于10像素标准差的高斯分布,且通过双三次插值法计算得出。具体操作原理见弹性形变的博客。这里的label通过形态学的方法获得,看做原图的一个通道,同时做形变等操作。
因此U-Net适用于小规模的数据集,同时取得比较准确的分割。而U-Net也适合于医疗数据。因为医疗数据和其他数据不同,没有用ImageNet进行预训练。对于边界上的像素信息,残缺信息通过镜像手段进行补全。
(4)实验和效果
通过对照实验,并在多个数据集上训练,取得了最好的效果。这里为了最大效率利用GPU,减少了patch的大小,同时增加了每个输入图像的大小,这里一个patch就是一个tile(输入图像):注:在切面图像中,一整个切片是(slice),一个slice里剪切出多个tile。