Perceptual Losses for Real-Time Style Transfer and Super-Resolution

基本结构

结构

基本结构有两部分组成:图像转换网络(image transfer network)和损失网络,损失网络作为损失方程。图像转换网络是一个深度残差卷积网络,将输入图像x转换成输出图像y_{^},使用随机梯度下降法来训练

为了克服像素损失的缺点,使损失方程能够更好的度量感知和语义相关的信息。因此使用一个预训练好的分类网络定义特征损失和风格损失,作为损失函数。

图像转换网络

图像转换网络使用带有步长的卷积代替池化层进行下采样和上采样[#参考#],网络的主体包括两个步长为2的卷积层(下采样)、五个残差块、两个步长为1/2的卷积层(上采样),不是残差块的层紧接着batch norm 和RELU,第一层和最后一层使用9 \times 9的卷积核,其他层使用3 \times 3的卷积层。
输入和输出

感知损失函数

特征(内容)损失:使用VGG高级特征表示,使得内容和全局结构保留,但颜色和纹理形状不复存在。


风格损失:颜色、纹理和共同模式上的不同


将第j层的特征()reshape成一个矩阵M(),则伽马矩阵,使用伽马矩阵作为损失函数。

先下采样再上采样的好处:

  • 计算复杂性减少
  • 有效的感受野大小,输出中的每个像素都有输入中的大面积有效的感受野。

损失函数

  • 像素损失:输出图像与目标图像之间的欧式距离
  • 总变差正则化:为了使空间更平滑,使用总变差正则损失

训练

80k的coco数据集resize到256,训练batch size为4, 一共40k次迭代,使用Adam学习率为0.001的学习器。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容