这篇文中来自CVPR2018,延续去年将CRF和深度网路结合用于单目恢复图像深度信息的任务,此次提出一个结构化注意力模型自动的协调不同尺度对应的特征之间需要转换的程度,可以理解为自适应的对multi-scale information进行融合。
中间有一大段的有关CRF的推导,神么能量函数,平均场更新各种,看不懂,咱们直接跳到网络设计部分。。。。
参数更新公式:
网络主要分为两部分,一部分为front-end network,另一部分为structural attention crf 模型。front encoder 采用resnet50(在ImageNet预训练参数初始化),decoder 采用一般的转置卷积(Deconvolution)进行上采样重建。CRF模型的作用是为了对不同尺度的信息进行一个fusion,文中选择res3,res4,res5进行融合。整个融合过程平均场更新公式
整个融合过程从数学推导上比较复杂,但是作者将其转化为神经网络模块:
其中MeanFieldUpdate可已看成信息之间的融合,这里我展示出网络结构图:
其中concat_f1_mf1上面的两只就是MeanFieldUpdate的第二、三个输入,updated_f1_mf1是当前两个节点之间的融合输出。一共进行五次平均场更新,最后一次更新的结果作为后续深度重建的feature maps。