Abstract. There is large consent that successful training of deep networks requires many thousand annotated training samples. In this paper, we present a network and training strategy that relies on the strong use of data augmentation to use the available annotated samples more efficiently. The architecture consists of a contracting path to capture context and a symmetric expanding path that enables precise localization. We show that such a network can be trained end-to-end from very
few images and outperforms the prior best method (a sliding-window convolutional network) on the ISBI challenge for segmentation of neuronal structures in electron microscopic stacks. Using the same network trained on transmitted light microscopy images (phase contrast and DIC) we won the ISBI cell tracking challenge 2015 in these categories by a large margin. Moreover, the network is fast. Segmentation of a 512x512 image takes less than a second on a recent GPU. The full implementation (based on Caffe) and the trained networks are available at http://lmb.informatik.uni-freiburg.de/people/ronneber/u-net.
摘要:众所周知,训练好深度网络需要很多标注的训练样本。在本文中,我们提出了一个网络及其训练策略,它凭借大量使用数据扩增,更有效的利用可用的标注样本。这个架构包含一个缩小路径来获取上下文;一个相对陈的放大路径用来更准确地定位。我们证明,这样的网络用很少的图片进行端到端的训练,并且在ISBI的对于电子显微镜堆叠中的神经元结构的划分的挑战中,超过了之前最好的方法(一个滑动窗口卷积网络)。使用透光显微镜图片(相位对比度和DIC)训练同样的网络,我们以巨大优势获得了在这些分类中的ISBI的细胞跟踪挑战2015。而且,这个网络很快。在现在的GPU上划分一个512*512的图片耗时不到一秒钟。完整的实现(基于Caffe)和训练好的网络可以在此获得:
http://lmb.informatik.uni-freiburg.de/people/ronneber/u-net.
神经网络训练需要大量的数据,而在生物医学任务上,这样大量的数据是很难获得的。
对于数据的分类,只有标签是不够的,还需要定位(要既有标签,又有这个标签指定物体在图片中的位置)。
现有的滑动窗口算法有两个弱点:1.计算速度慢(窗口与窗口之间有重叠,计算重复)
2.定位准确性与上下文的利用之间需要权衡(大的窗口patch块,会导致定位准确率低;窗口小了,上下文信息又会变少)。
提出的网络结构如下:分为下采样(文中称为缩小)路径和上采样(文中称为放大)路径。理解网络结构的话,主要看图,整体以3*3卷积为主。
Loss的设计:主要是softmax+交叉熵,引入了权重,一个带权重的softmax+交叉熵,关键:
初始化:高斯分布初始化,方差与卷积核大小和个数相关。
数据扩增:
主要做了两个方面:1.图片的形变处理;2.Drop-out层的使用
实验结果: