Keras是一款特别友好的基于Python的深度学习库,甚至比Tensorflow还友好。关于Keras的介绍和配置,可以看我之前的文章Keras的介绍与配置,也可以直接查看官网中文文档
接下来我们要做被誉为机器学习届的Hello World的手写数字识别。真的掌握了这个,就已经把Keras掌握得七七八八了。剩下的就是算法方面的问题了。
我们知道,机器学习的工作,比起别的编程工作,有两个特别大的痛点。
一个是数据集的问题。因为收集数据集是一个很繁琐的活,尤其是某些更加复杂,无法自己生成的数据集。例如我要做一个汽车的分类问题。算法其实可以直接在很多多分类问题的算法基础上改,但是最大的问题是从哪里获得那么多汽车的图片。而且数据集这种东西,毋庸置疑是越全面越广泛越好的。数据量太少了就容易过拟合,或者说碰到一个新的情况就不知道怎么办了。
另一个则是训练的问题。这点最近也搞得我很头疼。因为模型复杂起来,训练就需要特别久。最可气的是,在模型一开始的时候,往往收敛比较缓慢,甚至出现震荡。这个时候你很难知道模型到底是不收敛还只是震荡。尤其是对苦逼的学生党,一跑就是几天,可能loss一直保持不变。
作为HelloWord,最关键在于简单。简单到很快就可以看到效果,给新手一种我也写出了东西的感觉。手写数字识别就是这样的东西。
手写数字识别,可以说是卷积神经网络(CNN)第一次发挥出作用,可以说是CNN的开端。当时诞生了经典的LeNet模型,可以对手写数字识别做到非常好的效果。并且,已经五脏俱全,现代CNN网络的基本组件都已经出现了。但是因为当时的计算机能力有限,加上像SVM等机器学习的方法在手写数字识别上面,也可以取得比较好的效果。CNN的锋芒就被掩盖了。直到AlexNet出现的时候,计算机运算速度大大增加,出现了多GPU运算和大数据,使得CNN开始大放异彩。近十几年又开始火了起来。因此,手写数字识别算是CNN解决的第一个,也是最简单的一个问题。
前面两个痛点在这个问题上面完全不存在。手写数字识别有一个非常经典的库,叫做mnist。已经成为了这个问题的非常经典的库了。里面有60000个28*28像素的灰度图作为训练集,还有10000个测试集。由于LeNet是最早的CNN,完全不用担心数据跑很久的问题,基本是跑一两个epoch就会收敛了。
下面介绍LeNet。LeNet的模型也很简单,具体结构如下图。两层卷积+池化层,两个连接层就没有了。至于什么是卷积层,什么是连接层,请看我关于卷积神经网络的介绍的文章(其实还没有写)。
说了这么多,我们试着写一下吧。
首先引入我们将用到的数据包:
import numpy as np
import keras
from keras.datasets import mnist
from keras.utils import np_utils
from keras.models import Sequential
from keras.layers import Dense, Activation, Conv2D, MaxPooling2D, Flatten
from keras.optimizers import Adam
在Keras中,像mnist这样经典的数据集,都是直接给了。我们只需要一行代码:
(X_train, y_train), (X_test, y_test) = mnist.load_data()
接着我们要对数据进行预处理。首先把X换成的数据换成图片对应的形式,接着对y进行独热编码。
X_train = X_train.reshape(-1, 28, 28, 1) # normalize
X_test = X_test.reshape(-1, 28, 28, 1) # normalize
X_train = X_train / 255
X_test = X_test / 255
y_train = np_utils.to_categorical(y_train, num_classes=10)
y_test = np_utils.to_categorical(y_test, num_classes=10)
reshape函数代表了把数据变成什么样的矩阵(张量)。就比如我们的数据集,就是60000*28*28*1
的张量。前面的-1代表了自动推导。我们告诉它,这些数据是28*28
的灰度图,它就可以自动推导出这里面有多少数据了。需要再次强调的是,如果是Theano作为后端,则变成了1*28*28
。
对数据进行归一化,即把数据变成(0,1)区间的小数。原来的数据是0~255的,这样不方便处理,收敛的效果也相对不好。而把数据归一化,则更加方便计算机处理,可以加快收敛速率。
对数字进行独热编码,原因就比较复杂了。首先,我们的数据很可能不像这里,是0-9,而有可能是,猫狗鼠。为了让计算机知道我们在做什么,我们就需要给他们附上数字。例如0代表猫,1代表狗,2代表鼠。但是,即使转化为数字表示后,上述数据也不能直接拿来用,因为分类器往往默认数据数据是连续的,并且是有序的。因此我们还需要对数据进行独热编码即 One-Hot 编码。把001代表0,010代表1,100代表2。这样,我们的分类器总算不会认为他们有什么关系了。同时也扩充了特征。
接着我们就开始建立我们的模型了。在Keras里面,模型分为Sequential和Functional,即贯序模型和函数式模型。贯序模型,顾名思义比较适合一条道走到黑的模型,而函数式模型则比较厉害,可以胜任任何更加复杂的模型。鉴于我们的LeNet就是典型的一条道走到黑的模型,所以我们就使用Sequential就行了。
接下来就是代码了。代码很容易,看着前面的LeNet的图,一个一个数据比对就知道代码是什么意思了(当然可能还需要一点英文水平)。
model = Sequential()
model.add(Conv2D(input_shape=(28, 28, 1), kernel_size=(5, 5), filters=20, activation='relu'))
model.add(MaxPooling2D(pool_size=(2,2), strides=2, padding='same'))
model.add(Conv2D(kernel_size=(5, 5), filters=50, activation='relu', padding='same'))
model.add(MaxPooling2D(pool_size=(2,2), strides=2, padding='same'))
model.add(Flatten())
model.add(Dense(500, activation='relu'))
model.add(Dense(10, activation='softmax'))
model.compile(optimizer='rmsprop', loss='categorical_crossentropy', metrics=['accuracy'])
这就是为什么说Keras简单易用了。我们完全是按照上面的图一层一层地接起来的,就好像接水管一样。可以把心思都放在模型的搭建上面,而不管代码的其他问题。
这里的padding表示补0策略,有“valid”和“same” 。“valid”代表只进行有效的卷积,即对边界数据不处理。“same”代表保留边界处的卷积结果,通常会导致输出shape与输入shape相同。默认是valid,但是考虑到几层卷积下来,可能卷积连接有问题,一般会用same。
至于激活函数,当然是用经典的relu。优化器用的rmsprop,学习率是默认的学习率。优化器等我以后有机会再讲。学习率则是梯度下降的速率。通常来说,如果学习率比较高,则有可能产生震荡,而学习率比较低可能收敛比较慢。通常我们采用的是除三法,即从0.01开始,尝试0.003,0.001……直到找到收敛比较快的点。
我们的水管接好了,接下来就是通水了。
print('Training')
model.fit(X_train, y_train, epochs=2, batch_size=32)
print('\nTesting')
loss, accuracy = model.evaluate(X_test, y_test)
print('\ntest loss: ', loss)
print('\ntest accuracy: ', accuracy)
这里的batch_size是32。因为我们一次遍历所有数据算一次损失函数,开销是比较大的。因此我们把数据分成若干份,按批次更新参数,然后跑完一个epoch在合起来做一次。batch_size也是很玄学的东西,大了开销大,小了不准确。
我们只跑了2个epoch。训练的效果就可以达到98%左右了。当然我们可以多跑几个epoch,效果肯定更好。
至此,我们的CNN就已经入门了。