[1]机器学习,keras训练银行卡数字

本文主要记录个人学习机器模型的一些个人心得。
起初本来是用google的tensorflow来实现模型的训练的,tensorflow里面包含手写数字识别的例子。也就是fully_connected_feed.py那个例子,例子中用到的数据是从网上下载的,我直接把数据改成了自己的银行卡数据(8000多张银行卡数字样本),用这个例子跑了下,效果还挺不错的。


1.png

这个例子实际上是用到了两层神经网络再加一个softmax 激活函数来实现样本的分类


code.png

第一个隐含层参数 weights1是一个784*128的矩阵(784是图片的大小,mnist数据集每张图片是28*28的 也就是784)。进过第一层的计算,可以将1*784的矩阵转换成1*128的矩阵。
第二个隐含层参数weights2是一个128*32的矩阵,第二层的输入是第一层的到的1*128的矩阵。经过第二层的矩阵计算后,得到的是一个1*32的矩阵。
第三步,使用softmax 激活函数来实现图片的分类。第三部的参数[hidden2_units, NUM_CLASSES],即32*10, 32是上一步得到的结果,10是样本类别一共有十种(数字0~9)。使用softmax激活函数计算得到的结果是一个1*10的矩阵。里面的每一个数据代表对应下标的数字的概率。取最大概率对应的数组下标就是最终的预测结果。

机器学习的实质也就是训练这三步中每一步的参数。得到这三步的参数后,预测心的图片数字样本只需要进行相应的矩阵计算即可(输入的图片矩阵乘以weight1,得到的结果再乘以weight2,再乘以weight3,得到一个十分类的结果)。
中间隐含层的个数多少实际上也是一个研究方向,不同隐含层的个数会直接影响模型的准确率。

上面的例子是机器学习中一个比较简单的mlp(多层感知器)神经网络。而且是采用全连接的形式,全连接的一个比较大的缺点是如果图片比较大,比如1000*1000的,那么第一层的参数就是1000000*128的,这就有点大了,这只是一张图,如果是1000张图,那么第一层的参数就是1000000*128*1000了。这样的计算量显然就有点大了。 比较好的一种解决方法就是采用局部连接的方式。一般认为人对外界的认知是从局部到全局的,而图像的空间联系也是局部的像素联系较为紧密,而距离较远的像素相关性则较弱。因而,每个神经元其实没有必要对全局图像进行感知,只需要对局部进行感知,然后在更高层将局部的信息综合起来就得到了全局的信息。网络部分连通的思想,也是受启发于生物学里面的视觉系统结构。视觉皮层的神经元就是局部接受信息的(即这些神经元只响应某些特定区域的刺激)。如下图所示:左图为全连接,右图为局部连接。


fullyconnectedAndLocalConnected.jpg

在上右图中,假如每个神经元只和10×10个像素值相连,那么权值数据为1000000×100个参数,减少为原来的万分之一。而那10×10个像素值对应的10×10个参数,其实就相当于卷积操作。

深度学习这段时间被炒的很火,下面我们将使用keras中的cnn(卷积神经网络)来训练我们的银行卡数字。样本数字从0~9一共8500多张。我们取8000张拿来训练,剩下的500张哪来做测试集。


data1.png

每张图片的大小是27*19的矩阵,首先构造keras能够读取的数据集,代码比较简单,就不写了,直接截图看下数据格式。


data2.png

data里面包含两个元组,第一个是训练集8000张图片,第二个是测试集500张。每个元组下面又包含两个元组,第一个是图片数据,第二个是标签数据。

batch_size = 128
nb_classes = 10
nb_epoch = 8#迭代次数
(X_train, y_train), (X_test, y_test) = load_data()
X_train = X_train.reshape(X_train.shape[0], 1, 27, 19)
X_test = X_test.reshape(X_test.shape[0], 1, 27, 19)
X_train = X_train.astype("float32")
X_test = X_test.astype("float32")
X_train /= 255
X_test /= 255
print('X_train shape:', X_train.shape)
print(X_train.shape[0], 'train samples')
print(X_test.shape[0], 'test samples')

Y_train = np_utils.to_categorical(y_train, nb_classes)
Y_test = np_utils.to_categorical(y_test, nb_classes)

model = Sequential()

model.add(Convolution2D(32, 1, 3, 3, border_mode='full'))
model.add(Activation('relu'))
model.add(Convolution2D(32, 32, 3, 3))
model.add(Activation('relu'))
model.add(MaxPooling2D(poolsize=(2, 2)))
model.add(Dropout(0.25))

model.add(Flatten())
model.add(Dense(32*(27//2)*(19//2), 128)) #下采样
model.add(Activation('relu'))
model.add(Dropout(0.5))

model.add(Dense(128, nb_classes))
model.add(Activation('softmax'))

model.compile(loss='categorical_crossentropy', optimizer='adadelta')

model.fit(X_train, Y_train, batch_size=batch_size, nb_epoch=nb_epoch, show_accuracy=True, verbose=1, validation_data=(X_test, Y_test))
score = model.evaluate(X_test, Y_test, show_accuracy=True, verbose=0)
print('Test score:', score[0])
print('Test accuracy:', score[1])
#保存模型,下次可以直接用这个模型预测数字
model_json_str = json.dumps(model.get_config())
open('my_cnn_model_json_str.json','w').write(model_json_str)
model.save_weights("my_cnn_model_weights.h5",True)

运行程序,迭代8次,大概需要四五十分钟。
训练结果:

result1.png

训练完成后将保存下模型和参数
my_cnn_model_json_str.json
my_cnn_model_weights.h5。
下次测试其它图片直接加载本次的训练模型来预测即可。

from __future__ import absolute_import
from __future__ import print_function
from keras.models import Sequential
import numpy as np
np.random.seed(1337)  # for reproducibility
import keras
model = keras.models.model_from_json(open('my_cnn_model_json_str.json').read())
model.load_weights('my_cnn_model_weights.h5')

def pridict(image):
    ll = list()
    ll.append(image)
    xx = np.array(ll)
    ll2 = list()
    ll2.append(xx)
    xx2 = np.array(ll2)
    predict = model.predict(xx2, batch_size=1, verbose=1)
    return predict

再来弄一堆测试数据,用上次训练完的模型来预测


test2.png

运行我们的程序:

pre1.png

pre2.png

pre3.png

pre4.png

pre6.png

第四个错了,把6识别成9了。

后续计划:
迁移模型到手机客户端
下一篇地址,mlp模型参数提取:http://www.jianshu.com/p/2e5b2ff068eb

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,033评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,725评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,473评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,846评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,848评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,691评论 1 282
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,053评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,700评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,856评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,676评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,787评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,430评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,034评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,990评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,218评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,174评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,526评论 2 343

推荐阅读更多精彩内容