Uncertainty in multitask learning: joint representations for probabilistic MR-only radiotherapy p...

Paper Reading Note

TL;DR

本文提出一种概率多任务学习方法，可以估计data-dependent uncertainty，在模型输出预测结果的同时还会输出预测结果的uncertainty，对于一些决策类应用，如医疗诊断很有用。

Dataset/Algorithm/Model/Experiment Detail

本文应该算是Multi-Task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics 这篇论文的姊妹篇，都是在多任务学习中引入uncertainty来对多种任务的loss加权，但是两者的区别在于：

后者估计的uncertainty是task-dependent的，即同一个任务的不同输入对应的uncertainty相同，该uncertainty是用来衡量不同任务间的uncertainty，uncertainty不是模型的输出；
本文的uncertainty是data-dependent的，即模型对于不同的输入会输出不同的uncertainty，uncertainty是模型的一项输出，用来衡量模型对输出的不确定程度。

Methods

本文是利用核磁共振图像magnetic resonance (MR)来合成computed tomography (CT)图，并分割出病变区域。

作者指出，之前提出的概率多任务模型中，假设每个任务的uncertainty是常数（task-dependent），这对于本文的应用场景显然不现实，因为医学图像中不同的位置对应的是不同的人体组织结构，对于不同位置的组织给出结果的难易程度是不同的。

所以，本文应用中需要的uncertainty是和数据息息相关的。因此，作者使用了heteroscedastic (data-dependent) noise model来建模uncertainty，即不同图像不同位置处uncertainty不同，由图像决定。

网络结构图：

image

网络结构上，采用multi-task learning中的hard param share结构，即使用一个共享网络提取多个任务共享的特征表示，然后不同的任务有各自的branch来预测对应结果。

本文提出的网络结构中，branch部分网络可以分为两个部分，分别回归CT图像和其逐像素uncertainty，对病变区域分割和输出逐像素分类的uncertainty。

Loss：

对于CT图像回归任务，本文定义一个高斯分布

image

其中 fW1(x) 是模型的回归值， σW1(x)2 是模型输出的uncertainty，回归CT的任务，其使用负对数似然作为优化目标：

image
对分割任务，定义分类似然是scaled softmax

image

其中 fW2(x) 是模型预测各个像素位置属于不同类别的score， σW2(x)2 是模型输出的uncertainty，对于分割任务，其使用负对数似然作为优化目标：

image

那么最后整个网络的优化目标是

image

从以上loss函数可以看出，不同任务的loss通过uncertainty进行加权，而uncertainty是输入的函数，由输入决定。当网络对于一个输入的uncertainty越大，那么其对应的loss对总loss贡献将会降低，反之，贡献提升。loss公式和前面提到的姊妹篇很像，只不过本文loss中的uncertainty σ 是输入图像的函数。

另外，文章中还提出了一种Parameter uncertainty，就是一种dropout，作者提到可以用来提升网络的泛化能力。做法是，对于网络share部分最后一层，采用概率为0.5的drouout，然后在inference时，每张图都预测多次，通过计算多次结果的平均值和方差作为模型预测结果和parameter uncertainty。

注：文中给出的公式，部分地方个人感觉应该有错误，以上图中用红色标识的地方应该去掉。

Experiments

image

上图中第3列和第4列，展示了模型输出的uncertainty和parameter uncertainty，可以看出在骨骼或者器官的边缘，模型的uncertainty较大，而作者指出这些地方对于医学上判断也是比较难的。右边的图表示了模型预测误差和uncertainty的关系，可以看出，模型预测误差大的地方uncertainty也大。

Thoughts

本文的方法可以用于人脸识别相关任务中，可以由模型给出一个uncertainty来辅助判断，对于模糊，大角度等难例如果模型可以给出较大uncertainty，那么可以拒识。