最近深度学习里面最cool的一个模型CNN卷积神经网络,搞明白了cnn的基本模型之后,跑了几个CNN的模型,算是CNN有一个基本的认识了。
这几天打算进阶一下,熟悉一些更复杂的模型。前几天在网上很火的图片风格合成,利用vgg学习内容图片A + 背景风格图片B的特征 ,然后生成一个新的图片,类似下图。
参考了一些paper和其他人分享的博客,打算自己实践一下。
- 基本原理
对于一张图片的输入,CNN的每一层会捕捉到不同的特征(这个特征取决于loss function的设计)。但总的来说,CNN的底层捕捉简单的线条和边缘,但是随着网络的深入,CNN可以学到更加复杂和抽象的特征。如下图所示:
Neural-style的原理也是相似的,利用CNN的提取内容图片的特征和风格图片的特征,将他们融合到一张随机噪声的背景图上面。
- 具体实现
这里的CNN的模型用的是Vgg(包含16个卷积层和5个池化层),模型如下图所示:
所以,将内容图片和风格图片放入vgg里面之后,同上面讲的道理一样,vgg的每一层会捕捉到不同的特征,层数越高,捕捉到的特征会越复杂。如下图所示,(d)和(e)较好地保留了图像的高阶内容(high-level content)而丢弃了过于细节的像素信息。
在实际实验中,内容层和风格层选择如下:
内容层:conv4_2
风格层:conv11, conv2_1, conv3__1_, _conv4_1, conv5_1训练过程:
以白噪声图像作为输入(x)到VGG19网络,conv4_2层的响应与原始内容图像计算出内容损失(Content Loss)。
“conv1_1, conv2_1, conv3_1, conv4_1, conv5_1”这5层的响应分别与风格图像计算出风格损失,然后它们相加得到总的风格损失(Style Loss)。
最后Content Loss + Style Loss = Total Loss得到总的损失。采用梯度下降的优化方法求解Total Loss函数的最小值,不断更新x,最终得到一幅“合成画”。-
计算loss的过程
- 实现
网上很几个这样的例子,但是基本上都是拿paper的源码跑的。这个源码里面的代码,对刚刚入门tensorflow的新手很不友好。我自己写了一个比较易读的版本。核心代码,如下:
def main():
net = build_vgg19(VGG_MODEL)
# 内容图片
content_img = read_image(CONTENT_IMG)
# 风格图片
style_img = read_image(STYLE_IMG)
# 噪声图片
noise_img = np.random.uniform(-20, 20, (1, IMAGE_H, IMAGE_W, 3)).astype('float32')
sess = tf.Session()
init = tf.global_variables_initializer()
sess.run(init)
#把content_img作为Vgg的输入,获得每一次的输出,存在content_outputs里面
sess.run([net['input'].assign(content_img)])
content_outputs={}
for item in CONTENT_LAYERS:
content_outputs[item[0]]=sess.run(net[item[0]])
#把style_img作为Vgg的输入,获得每一次的输出,存在style_outputs里面
sess.run([net['input'].assign(style_img)])
style_outputs={}
for item in STYLE_LAYERS:
style_outputs[item[0]]=sess.run(net[item[0]])
for key in content_outputs:
print ('content : ',key)
for key in style_outputs:
print ('style : ',key)
#计算loss
#这里的key指的是某一层;content_outputs[key]是vgg预训练模型中每一层的输出;net[key]而是网络不断迭代后每一层的输出
cost_content=sum([build_content_loss(content_outputs[key],net[key]) for key in content_outputs])
cost_style =sum([build_style_loss (style_outputs[key],net[key]) for key in style_outputs ])
#cost_content=cost_content+sum(build_content_loss(content_outputs[key],net[key]))
cost_total = cost_content + STYLE_STRENGTH * cost_style
optimizer = tf.train.AdamOptimizer(2.0)
train = optimizer.minimize(cost_total)
#noise_img
sess.run(tf.global_variables_initializer())
sess.run(net['input'].assign( INI_NOISE_RATIO * noise_img + (1.-INI_NOISE_RATIO) * content_img))
if not os.path.exists(OUTOUT_DIR):
os.mkdir(OUTOUT_DIR)
sess.run(train)
for i in range(ITERATION):
sess.run(train)
if i%500 ==0:
result_img = sess.run(net['input'])
print (sess.run(cost_total))
write_image(os.path.join(OUTOUT_DIR,'%s.png'%(str(i).zfill(4))),result_img)
write_image(os.path.join(OUTOUT_DIR,OUTPUT_IMG),result_img)
-
结果
-
环境
Python 3.5 Tensorfow 1.2 GPU 1080ti #之前是在自己的电脑上面用cpu跑的,太慢了7~8个小时太能跑完, #在服务器上面用GPU大概在20分钟左右
Github
https://github.com/zhaozhengcoder/Machine-Learning
在tensorflow 进阶的目录下面