姓名:雷含笑;学号:21021210745;学院:电子工程学院
参考:https://zhuanlan.zhihu.com/p/467039982
【嵌牛导读】图像融合作为信息融合的一个分支,是当前信息融合研究中的一个热点。图而图像融合是将2张或2张以上的图像信息的融合到1张图像上,使得融合的图像含有更多的信息、能够更方便人来观察或者计算机处理。图像融合的目标是在实际应用目标下将相关信息最大合并的基础上减少输出的不确定度和冗余度。图像融合的优点很明显,它能扩大图像所含有的时间空间信息,减少不确定性,增加可靠性,改进系统的鲁棒性能。图像融合是提取多幅针对同一场景且内容互补的图像中的信息并将其合并到幅图像的技术。随着计算机视觉和人工智能的飞速发展,图像融合技术逐渐发展成熟,并被应用到目标跟踪、医学影像和视频监控等领域中。
【嵌牛鼻子】图像融合 信息融合
【嵌牛提问】图像融合作为一个图像处理的底层任务,与现今的深度学习结合有什么方法
【嵌牛正文】
与现今的深度学习结合,图像融合任务有了很多新的方法
1.Deepfuse
Deepfuse是一种无监督训练的方法,而且是有史以来第一个执行静态MEF的无监督深度学习方法。该模型从每一幅输入图像中提取一组常见的底层特征。通过合并层将所有输入图像的特征对融合为单一特征。最后,将融合后的特征输入重构层,得到最终的融合图像。
2.Densefuse
在基于深度学习的融合方法中,Densefuse是编码器-解码器结构的代表作。Densefuse由三部分组成:编码器、融合层和解码器。首先,利用源图像(红外和可见光图像)作为编码器的输入。利用CNN层和密集块获得特征图,并利用融合策略(加法和L1范数)进行融合。在融合层之后,特征图进入它包含了源图像的所有显著特征。最后,利用解码器网络重构融合后的图像。在密集块中,编码网络中每一层获得的特征映射级联作为下一层的输入。密集块结构有三个优点:1)这种结构可以尽可能多地保存信息;2)该模型提高了信息在网络中的流动和梯度,使网络易于训练;3)密集连接具有正则化效应,减少了任务的过拟合。基于这些观察,将密集块纳入我们的编码网络。通过这种操作,网络可以从中间层保存更多有用的信息,并且易于训练。实验结果表明,该方法具有先进的融合性能。Densefuse可以应用于其他具有适当融合层的图像融合问题,如多焦点图像融合、多曝光图像融合和医学图像融合。
3.Nestfuse
Nestfuse是通过发展巢连接网络和空间/通道注意模型。该体系结构首先利用编码器网络中的池化算子提取源图像的多尺度特征,使源图像具有更丰富的特征;然后,利用提出的空间/通道注意模型融合这些多尺度深度特征。将这些融合特征输入基于巢连接的解码器网络,生成融合图像。
4.RFN-Nest
RFN-Nest在20年NestFuse的基础上,将融合模块从人工设计的融合规则变成了用网络进行融合,同时不再是单独用自然图像进行有监督训练,也和很多其他模型类似,加入了自监督学习方法,其中第一阶段训练和NestFuse一样,用大量自然图像训练一个自编码器,而第二阶段训练是RFN-Nest新增加的自监督训练方式,会生成四个用于多尺度融合的RFN(Residual fusion network)模块。相比较其他自监督模型的不同之处是多尺度(很多融合模型为了避免细节损失不会使用任何下采样步骤)和大规模红外-可见光数据集进行训练。模型结构如下。
先来说第一阶段训练,编码器和解码器与先前的NestFuse相同,并且第一阶段训练也仍然是用自然图像训练自编码器,采用的是COCO数据集的八万张图像,损失函数比较常规,第二阶段是训练四个RFN模块,其实也就是学习融合策略,需要先将编码器和解码器的网络参数都固定(相当于RFN的输入输出固定),然后用自监督方法专门训练该模块的网络,RFN结构如下。
两个模态的特征图会分成两个分支,一个分支各自经过单个卷积层后在通道维度拼接,再用后续三个卷积层处理,另一个分支则经过单个卷积层后作为残差连接和另个分支的组合,得到的就是融合特征图。四个RFN模块均为这种结构,在四个尺度上对特征图进行融合。这阶段训练使用的数据集为KAIST数据集,包含八万个红外-可见光图像对。
5.SeAFusion
semantic-aware real-time image fusion network (SeAFusion)是任务驱动模型。目前的图像融合算法都聚焦于主观视觉评价和统计指标,忽略了对高级任务的作用。本文打通了图像融合与高级任务之间的桥梁,将图像融合模块和语义分割模块级联,利用语义损失来引导高级语义信息流回图像融合模块,有效提升融合图像上高级视觉任务的性能。实时性也非常客观,可以作为实时系统中的预处理模块。还设计了 gradient residual dense block (GRDB),增强融合网络对细粒度空间细节的描述能力。
下图 的对比结果说明尽管目前一些模型利用 perceptual loss 限制源图像和融合图像在特征层面较为相似,但是并不能增强语义信息。目前对融合结果的评价仅有主观视觉评价和一些客观统计手段,但是这两类方法都不能提高对高级语义任务的有效性,已有的融合模型也不能有效地提取细粒度细节特征,还有一点是很多模型并不能达到实时要求。模型结构如下图,咱们可以看到,模型分为融合网络和分割网络两个块,分别是红外-可见光图像融合任务和在融合图像上进行语义分割任务。
融合网络的结构如下图,由特征提取模块和图像重建模块组成。
除了基于CNN的方法,图像融合还有很多基于GAN等的方法,在本系列的下一个专题将对其他模型进行简单的介绍。