4.4MNIST手写体数字图片识别

  • 下载数据。
    每个手写体数字图像在两份文件中都被首尾拼接为一个28*28=784维的像素向量,而且每个像素都使用【0,1】之间的灰度值来显示手写笔画的明暗程度。

  • 搭建模型。
    我们将采用多种基于skflow工具包的模型完成大规模手写体数字图片识别的任务。这些模型包括:线性回归器、全连接并包含三个隐层的深度神经网络(DNN)以及一个较复杂但是性能强大的卷积神经网络(CNN)。

import pandas as pd

train=pd.read_csv('/Users/daqi/Documents/ipython/test/MNIST/train.csv')
#查验训练样本数量为42000条;数据维度为785。
train.shape

(42000, 785)

test=pd.read_csv('/Users/daqi/Documents/ipython/test/MNIST/test.csv')
#查验训练样本数量为28000条;数据维度为784。
test.shape

(28000, 784)

#将训练集中的数据特征与对应标记分离
y_train=train['label']
X_train=train.drop('label',1)

#准备测试特征
X_test=test

import tensorflow as tf
import skflow

#使用skflow中已经封装好的基于tensorflow搭建的线性分类器TensorFlowLinearClassifier进行学习预测
classifier=skflow.TensorFlowLinearClassifier(n_classes=10,batch_size=100,steps=1000,learning_rate=0.01)

classifier.fit(X_train,y_train)

Step #99, avg. train loss: 7.92963
Step #199, avg. train loss: 3.11331
Step #299, avg. train loss: 2.59313
Step #399, avg. train loss: 2.20776
Step #500, epoch #1, avg. train loss: 1.75313
Step #600, epoch #1, avg. train loss: 1.65065
Step #700, epoch #1, avg. train loss: 1.63542
Step #800, epoch #1, avg. train loss: 1.48731
Step #900, epoch #2, avg. train loss: 1.23449
Step #1000, epoch #2, avg. train loss: 1.27328
Out[12]:
TensorFlowLinearClassifier(batch_size=100, class_weight=None,
clip_gradients=5.0, config=None, continue_training=False,
learning_rate=0.01, n_classes=10, optimizer='Adagrad',
steps=1000, verbose=1)

linear_y_predict=classifier.predict(X_test)

linear_submission=pd.DataFrame({'ImageId':range(1,28001),'Label':linear_y_predict})
linear_submission.to_csv('/Users/daqi/Documents/ipython/test/MNIST/linear_submission.csv')

#使用skflow中已经封装好的基于tensorflow搭建的全连接深度神经网络TensorFlowDNNClassifier进行学习预测。
classifier=skflow.TensorFlowDNNClassifier(hidden_units=[200,50,10],n_classes=10,steps=5000,learning_rate=0.01,batch_size=50)
classifier.fit(X_train,y_train)

Step #4000, epoch #4, avg. train loss: 1.14965
Step #4100, epoch #4, avg. train loss: 1.12858
Step #4200, epoch #5, avg. train loss: 1.13715
Step #4300, epoch #5, avg. train loss: 1.05097
Step #4400, epoch #5, avg. train loss: 1.04512
Step #4500, epoch #5, avg. train loss: 1.02332
Step #4600, epoch #5, avg. train loss: 0.99978
Step #4700, epoch #5, avg. train loss: 0.98281
Step #4800, epoch #5, avg. train loss: 0.96837
Step #4900, epoch #5, avg. train loss: 0.95128
Step #5000, epoch #5, avg. train loss: 0.96353
Out[23]:
TensorFlowDNNClassifier(batch_size=50, class_weight=None, clip_gradients=5.0,
config=None, continue_training=False, dropout=None,
hidden_units=[200, 50, 10], learning_rate=0.01, n_classes=10,
optimizer='Adagrad', steps=5000, verbose=1)

dnn_y_predict=classifier.predict(X_test)

dnn_submission=pd.DataFrame({'ImageId':range(1,28001),'Label':dnn_y_predict})
dnn_submission.to_csv('/Users/daqi/Documents/ipython/test/MNIST/dnn_submission.csv',index=False)

#使用Tensorflow中的算子自行搭建更为复杂的卷积神经网络,并使用skflow的程序接口从事MNIST数据的学习与预测。
def max_pool_2x2(tensor_in):
    return tf.nn.max_pool(tensor_in,ksize=[1,2,2,1],strides=[1,2,2,1],padding='SAME')

def conv_model(X,y):
    X=tf.reshape(X,[-1,28,28,1])
    with tf.variable_scope('conv_layer1'):
        h_conv1=skflow.ops.conv2d(X,n_filters=32,filter_shape=[5,5],bias=True,activation=tf.nn.relu)
        h_pool1=max_pool_2x2(h_conv1)
    with tf.variable_scope('conv_layer2'):
        h_conv2=skflow.ops.conv2d(h_pool1,n_filters=64,filter_shape=[5,5],bias=True,activation=tf.nn.relu)
        h_pool2=max_pool_2x2(h_conv2)
        h_pool2_flat=tf.reshape(h_pool2,[-1,7*7*64])
    h_fcl=skflow.ops.dnn(h_pool2_flat,[1024],activation=tf.nn.relu,dropout=0.5)
    return skflow.models.logistic_regression(h_fcl,y)

classifier=skflow.TensorFlowEstimator(model_fn=conv_model,n_classes=10,batch_size=100,steps=20000,learning_rate=0.001)

classifier.fit(X_train,y_train)

Step #19000, epoch #45, avg. train loss: 0.01151
Step #19100, epoch #45, avg. train loss: 0.01212
Step #19200, epoch #45, avg. train loss: 0.01072
Step #19300, epoch #45, avg. train loss: 0.01236
Step #19400, epoch #46, avg. train loss: 0.01132
Step #19500, epoch #46, avg. train loss: 0.01367
Step #19600, epoch #46, avg. train loss: 0.01267
Step #19700, epoch #46, avg. train loss: 0.00997
Step #19800, epoch #47, avg. train loss: 0.01001
Step #19900, epoch #47, avg. train loss: 0.01003
Step #20000, epoch #47, avg. train loss: 0.00917
Out[51]:
TensorFlowEstimator(batch_size=100, class_weight=None, clip_gradients=5.0,
config=None, continue_training=False, learning_rate=0.001,
model_fn=<function conv_model at 0x11ef26bf8>, n_classes=10,
optimizer='Adagrad', steps=20000, verbose=1)

#这里务必请读者朋友在实战中注意,不要将所有的测试样本交给模型进行预测。由于Tensorflow会同时对所有测试样本进行矩阵计算,一次对28000个测试图片进行计算会消耗大量的内存和计算资源。这里所采取的是逐批次地对样本进行预测,最后拼接全部预测结果。
conv_y_predict=[]
import numpy as np
for i in np.arange(100,28001,100):
    conv_y_predict=np.append(conv_y_predict,classifier.predict(X_test[i-100:i]))
conv_submission=pd.DataFrame({'ImageId':range(1,28001),'Label':np.int32(conv_y_predict)})
conv_submission.to_csv('/Users/daqi/Documents/ipython/test/MNIST/conv_submission.csv',index=False)
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,684评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,143评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,214评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,788评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,796评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,665评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,027评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,679评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,346评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,664评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,766评论 1 331
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,412评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,015评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,974评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,203评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,073评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,501评论 2 343

推荐阅读更多精彩内容

  • D - The least round way Codeforces Beta Round #2 There is...
    Nioge阅读 283评论 0 0
  • 每到盛夏,媒体总会不时爆出野浴丧命的新闻。每每此时,心里就会掠过一阵不安,儿时野浴差点被淹死的那一幕又会重新出现在...
    渝夫2016阅读 803评论 0 2