Paper Reading Note
URL: https://arxiv.org/abs/1806.06595
TL;DR
本文提出一种概率多任务学习方法,可以估计data-dependent uncertainty,在模型输出预测结果的同时还会输出预测结果的uncertainty,对于一些决策类应用,如医疗诊断很有用。
Dataset/Algorithm/Model/Experiment Detail
本文应该算是Multi-Task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics 这篇论文的姊妹篇,都是在多任务学习中引入uncertainty来对多种任务的loss加权,但是两者的区别在于:
- 后者估计的uncertainty是task-dependent的,即同一个任务的不同输入对应的uncertainty相同,该uncertainty是用来衡量不同任务间的uncertainty,uncertainty不是模型的输出;
- 本文的uncertainty是data-dependent的,即模型对于不同的输入会输出不同的uncertainty,uncertainty是模型的一项输出,用来衡量模型对输出的不确定程度。
Methods
本文是利用核磁共振图像magnetic resonance (MR)来合成computed tomography (CT)图,并分割出病变区域。
作者指出,之前提出的概率多任务模型中,假设每个任务的uncertainty是常数(task-dependent),这对于本文的应用场景显然不现实,因为医学图像中不同的位置对应的是不同的人体组织结构,对于不同位置的组织给出结果的难易程度是不同的。
所以,本文应用中需要的uncertainty是和数据息息相关的。因此,作者使用了heteroscedastic (data-dependent) noise model来建模uncertainty,即不同图像不同位置处uncertainty不同,由图像决定。
网络结构图:
网络结构上,采用multi-task learning中的hard param share结构,即使用一个共享网络提取多个任务共享的特征表示,然后不同的任务有各自的branch来预测对应结果。
本文提出的网络结构中,branch部分网络可以分为两个部分,分别回归CT图像和其逐像素uncertainty,对病变区域分割和输出逐像素分类的uncertainty。
Loss:
-
对于CT图像回归任务,本文定义一个高斯分布
image其中 fW1(x) 是模型的回归值, σW1(x)2 是模型输出的uncertainty,回归CT的任务,其使用负对数似然作为优化目标:
image -
对分割任务,定义分类似然是scaled softmax
image其中 fW2(x) 是模型预测各个像素位置属于不同类别的score, σW2(x)2 是模型输出的uncertainty,对于分割任务,其使用负对数似然作为优化目标:
image
那么最后整个网络的优化目标是
从以上loss函数可以看出,不同任务的loss通过uncertainty进行加权,而uncertainty是输入的函数,由输入决定。当网络对于一个输入的uncertainty越大,那么其对应的loss对总loss贡献将会降低,反之,贡献提升。loss公式和前面提到的姊妹篇很像,只不过本文loss中的uncertainty σ 是输入图像的函数。
另外,文章中还提出了一种Parameter uncertainty,就是一种dropout,作者提到可以用来提升网络的泛化能力。做法是,对于网络share部分最后一层,采用概率为0.5的drouout,然后在inference时,每张图都预测多次,通过计算多次结果的平均值和方差作为模型预测结果和parameter uncertainty。
注:文中给出的公式,部分地方个人感觉应该有错误,以上图中用红色标识的地方应该去掉。
Experiments
上图中第3列和第4列,展示了模型输出的uncertainty和parameter uncertainty,可以看出在骨骼或者器官的边缘,模型的uncertainty较大,而作者指出这些地方对于医学上判断也是比较难的。右边的图表示了模型预测误差和uncertainty的关系,可以看出,模型预测误差大的地方uncertainty也大。
Thoughts
本文的方法可以用于人脸识别相关任务中,可以由模型给出一个uncertainty来辅助判断,对于模糊,大角度等难例如果模型可以给出较大uncertainty,那么可以拒识。