使用语义分割结果代替数据分布距离进行提供判别器反馈是否可行？

2020.6.12更新：
已经跑通了一个遥感图像像素级语义分割的代码，原有的实验在IGRASS比赛提供的数据集上做的，因为该数据集原则上是受限使用，所以没法分享给大家，需要使用通道组织方式为[VV,VH,VV+VH/2]的SAR图像和一般的光学图像作为输入，实验效果相当不错。

这一切主要来自于最近的一系列的实验和相关分析结果。

pix2pix系列模型都有一个巨大的问题，在生成猫狗这样的一般计算机视觉领域中，白猫/黑猫是相当重要的指标，因此，广泛的使用FID或者CID对生成效果和GT进行比对，这些指标能够在一定程度上衡量人看着“像不像”，因此一直被推广，但是当情况涉及到遥感图像时，情况发生了一些变化。

一间厂房的屋顶是蓝色或者红色，极其影响人判断它“像不像”的结果，而实验也证明，一片红色和一片蓝色在FID上跑的结果是不一样的，但是，遥感图像翻译——尤其是SAR图像翻译，关注的到底是什么？

把红楼顶的厂房翻译成蓝楼顶的，错了吗？当然错了。

但是这种错误是源自于SAR成像固有的信息不足，而非模型问题或者方法缺陷，而且，（我认为）此类任务的关键在于我们翻译一个SAR图像，如果里面有一个厂房，我们翻译出来还是不是厂房——至于它是什么颜色，其实并不十分重要。

依托这种思路，问了实验室的一些朋友，大部分让我做图像分类，但是这样的结果拿来做量化评价指标是不可能的。那么，语义分割行不行呢？

也许可以。

更进一步，像素级的语义分割，除了能作为翻译结果的量化评价指标，是不是也能作为图像翻译中判别器的反馈信息？

我觉得可以。

至少值得一试。

鉴别器可以设计为一个对输入的生成图像/真实图像进行语义分割的网络，同时，真实图像也将通过一个共享鉴别器权重的额外的语义分割模型进行语义划分，并将两个结果进行比较，并将比较结果反馈给生成器。

那么，我们需要的也许只是：一个可靠的语义分割模型。