前言
TensorBoard是一个机器学习的可视化工具,能够有效地展示Tensorflow在运行过程中的计算图、各种指标随着时间的变化趋势以及训练中使用到的数据信息。
通过使用TensorBoard,可以将训练过程中评价指标与训练次数绘制成折线图,从而观察诸如准确率提高的过程或损失下降的过程。同时,当我们更改模型的超参数(LearningRate等)时,TensorBoard还可以将不同的超参数对应的折线图分类,可以更加直观地观察超参数的选取对模型训练的影响。
准备代码
我们上一讲成果地编写了一个卷积网络的程序,这节课则需要用到这个程序。从Jupyter Notebook中导出为Python文件的方法很简单。点击左上角的File->Download As->Python即可。
由于在运行GPU的TensorFlow程序的时候,无论模型的规模,Tensorflow程序总是倾向于占用全部的显存VRAM。因此最好在程序运行之前,通过
gpu_options
来指定程序占用的显存的比例。
gpu_options = tf.GPUOptions(per_process_gpu_memory_fraction=0.33)
sess = tf.Session(config=tf.ConfigProto(gpu_options=gpu_options))
这里指定的显存占用比例为0.33,也就是说这个Tensorflow的程序最多将会占用全部显存的1/3,而不是占用全部的显存。这点,当你在同时训练多个模型的时候极其有用。
Keras的TensorBoard回调函数(Callback)
Keras与TensorBoard的通讯基本上是通过Keras的回调函数来实现的。关于Keras的TensorBoard回调函数详见:
https://www.tensorflow.org/api_docs/python/tf/keras/callbacks/TensorBoard?hl=zh-cn
目前,我们最关注的一个参数则是log_dir
。log_dir指明了log文件希望保存的位置。
程序调用TensorBoard则需要引入相应的包:
from tensorflow.keras.callbacks import TensorBoard
当使用TensorBoard来可视化训练过程的时候,给每个模型起一个名字会是十分聪明的做法(因为TensorBoard会将很多模型可视化出来,起名字可以区分不同的模型)。
给模型起名字的方法有很多,为了确保每个模型都是独一无二的,因此我们在每个模型的名字后面加上时间作为后缀(用到time包)。
model_name = "kaggle_cat_dog-cnn-64x2-{}".format(int(time.time()))
上述命名的方法是"模型的名字-卷积核的大小-时间",当然,你也可以选择自己的命名方法,只要够直观、简洁、便于理解就可以。
紧接着在程序里面,通过以下的代码指明log_dir参数:
tensorboard = TensorBoard(log_dir='logs/{}'.format(model_name))
这样一来,不同的模型则会拥有不同的log文件夹。
最后,在调用Keras的model.fit
方法中,指明TensorBoard的回调函数。注意,同一个模型可以有很多个回调函数,因此callbacks应该是一个列表。
model.fit(X, y, batch_size =32, epochs=10, validation_split=0.1, callbacks=[tensorboard])
至此,万事俱备了。打开控制台,通过python CNN in keras tutorial.py
命令来运行我们的卷及网络程序吧!
程序运行完毕之后,在python文件的同级文件夹下面会出现一个logs文件夹,文件夹下面会有存放我们刚才训练的模型的tfevent文件的目录。
打开TensorBoard
当我们多运行几次之后,会出现不同的存放log文件的目录。为了可以在TensorBoard中查看这些log文件,我们需要再程序运行的主目录下面打开一个CMD窗口,通过如下命令打开TensorBoard:
tensorboard --logdir=logs/
运行上述命令之后,会出现如下提示:
TensorBoard 1.10.0 at http://DESKTOP-2S6AI38:6006 (Press CTRL+C to quit)
这时,只要将http://DESKTOP-2S6AI38:6006
复制下来,在浏览器中打开就可以了。
TensorBoard的使用入门
通过在搜索框输入*号则可以将所有的图显示出来。
可以看到一共有4张图,acc(准确率),loss(损失),val_acc(验证集准确率),val_loss(验证集损失)。
在机器学习的程序中,我们的目标是让准确率尽可能地提高,而损失则尽可能地降低。把鼠标放在图上则可以看到图上相应点的详细信息。以验证集损失为例。
通过分析验证集损失的折线图可以发现,在第5个epoch之后,验证集的损失开始上升。此时,如果机器学习的程序继续运行下去的话,且验证集准确度还在持续上升,那么则有可能会出现过拟合的情况。所以,在我们评估模型的时候,关注验证集损失不失为很好地一个方法。
让我们回到卷积网络的程序中,对程序进行修改,如修改卷积核的大小,去掉一个全连接层等。此处我们选择去掉全连接层,并且修改模型的名字之后重新训练。
观察浅蓝色的曲线之后,发现去掉全连接层之后损失降得更低了,同时准确率也没有大幅下降。这时证明了我们的改变极有可能优化了模型。
下一讲中,我们将专注于如何利用TensorBoard去优化一个现有的模型。