准备
一个style image 、一个 content image以及一个训练好的CNN(一般用VGG网络就可以,可以去github上下载)
输入
有三个,分别是:noise image、content image、 style image
功能
将style image和content image进行融合,即将style image的风格放到content image中,但又不损失content image里面的内容。
原理
从卷积神经网络的可视化可以知道,在低层的神经网络中会有一些纹理、颜色的一些低级特征识别,越往上层,学习到的feature map越复杂,就会出现一些特定的pattern,比如:人脸、鸟的腿等等。(具体可以参看这个可视化的paper)
1.所以考虑让content image在接近输出的神经层算content_feature_maps,让style image在接近输入的神经层算style_feature_maps.
2.对noise image做相同的操作,得到noise_style_feature_maps (获取maps的层数和style image相同)和 noise_content_feature_maps(获取maps的层数和content image相同)
3.计算noise_content_feature_maps和content_feature_maps之间的loss,记为content loss,计算方法如下:
4.之后计算noise_style_feature_maps和style_feature_maps之间的loss,记为style loss,计算方法如下,即各自gram matrix的MSE:
- 什么是gram matrix?:
gram matrix是:一个vector x(列向量),如果计算它的gram matrix就是,gram matrix可以衡量两个feature map之间的相似程度。
-
为什么不直接用MSE呢?
因为style衡量的是纹理、颜色等一不一样,所以计算的是某种相关性。而不需要像content那样每个像素点都比较接近(即内容比较接近),所以在这里计算的是gram matrix的MSE。
5.最后呢,最小化style_loss+content_loss
结果
下面是我自己跑出来的结果,比较难看,但是已经有了风格迁移的味道,有些内容有点失真,我感觉应该是训练的不够,但是鉴于我的电脑太久远了,一运行就卡的不行,就这样的结果也是跑了很长时间的了。
代码
见我的github。代码里面只需要运行style_transfer.py文件即可。还有一个VGG网络的训练参数文件“vgg16.npy”需要下载,这个文件比较大,上传太费时了,可以去github上找,或者网盘。
有什么问题可以及时留言,欢迎批评指正!