基于python的BP神经网络——kaggle手写数字识别

环境

操作系统:CentOS 6.8 64位
Python版本: Python3.4.1
Python模块:Numpy,csv,time

原理

BP网络模型处理信息的基本原理是:输入信号Xi通过中间节点(隐层点)作用于输出节点,经过非线形变换,产生输出信号Yk,网络训练的每个样本包括输入向量X和期望输出量t,网络输出值Y与期望输出值t之间的偏差,通过调整输入节点与隐层节点的联接强度取值Wij和隐层节点与输出节点之间的联接强度Tjk以及阈值,使误差沿梯度方向下降,经过反复学习训练,确定与最小误差相对应的网络参数(权值和阈值),训练即告停止。此时经过训练的神经网络即能对类似样本的输入信息,自行处理输出误差最小的经过非线形转换的信息。

详细原理转BP神经网络原理

数据

数据集:Digit Recognizer

根据题目描述,手写数字是28 * 28的图片数据,每一张图片的像素共 784个(28*28),将像素矩阵展开成一维,即为我们看到的csv格式的数据集。

训练集train.csv,第一行为label,最后一列为该行像素表示的数字(0~9)
测试集test.csv,第一行为label,第一列为ImageID,后续列为图片的一维像素值

数据处理

  1. 读取csv格式的训练数据集
  2. 将数据集的第一行删除
  3. 分离训练集的train_data和label部分
  4. 将train_data进行归一化处理,并转换成int型

代码实现

#导入训练数据
def LoadTrainData():
    TrainDataList = []
    print("......LoadTrainData......")
    with open('train.csv') as file:
        lines = csv.reader(file)
        for line in lines:
            TrainDataList.append(line)
    TrainDataList.remove(TrainDataList[0])   #去掉第一行
    TrainDataList = np.array(TrainDataList)  #转换成数组
    TrainDataLabels = TrainDataList[:,0]     #提取最后一列
    TrainData = TrainDataList[:,1:]          #提取其余列
    #Data 42000*784  label 1*42000
    return toNorm(toInt(TrainData)),toInt(TrainDataLabels)
#导入测试数据
def LoadTestData():
    TestDataList =[]
    with open('test.csv') as file:
        lines = csv.reader(file)
        for line in lines:
            TestDataList.append(line)
    TestDataList.remove(TestDataList[0])   #删除数据集第一行
    TestData = np.array(TestDataList)
    return toNorm(toInt(TestData))
#转换成整形
def toInt(array):
    matrix = np.mat(array)
    m,n = np.shape(matrix)
    newArray = np.zeros((m,n))
    for i in range(m):
        for j in range(n):
            newArray[i,j] = int(matrix[i,j])
    return newArray
#数据归一化处理
def autoNorm(array):
    m,n = np.shape(array)
    for i in range(m):
       for j in range(n):
          if array[i,j] != 0:
             array[i,j] = 1
    return array

神经网络训练

  1. 权重,偏置初始化
  2. 神经网络各层神经元数目初始化
  3. 学习效率设置
  4. 神经网络前向过程(sigmoid函数)
  5. 神经网络后向过程(梯度下降)
  6. 更新权重和偏置

代码实现

#训练神经网络
def TrainNetwork(sample,label):
    sample_num = len(sample)
    sample_len = len(sample[0])

    out_num =10       #输出层
    hid_num = 32      #隐藏层

    w1 = 0.2*np.random.random((sample_len,hid_num))-0.1   #输入到隐藏层权重
    w2 = 0.2*np.random.random((hid_num,out_num))-0.1   #隐藏到输出层权重

    hid_offset = np.zeros(hid_num)       
    out_offset = np.zeros(out_num)    

    input_learnrate = 0.2
    hid_learnrate = 0.1
    for m in range(20):                      #迭代次数
        for i in range(0,sample_num):
            t_lable = np.zeros(out_num)
            t_lable[int(label[0][i])]=1
            #前向过程
            hid_value = np.dot(sample[i],w1)+hid_offset
            hid_act = sigmoid(hid_value)

            out_value = np.dot(hid_act,w2)+out_offset
            out_act = sigmoid(out_value)
            #后向过程
            err = t_lable - out_act           #误差计算
            #梯度下降
            out_delta = err*out_act*(1-out_act)
            hid_delta = hid_act*(1-hid_act)*np.dot(w2,out_delta)
            #权重更新       
            for j in range(0,out_num):
                w2[:,j]+=hid_learnrate*out_delta[j]*hid_act
            for k in range(0,hid_num):
                w1[:,k]+=input_learnrate*hid_delta[k]*sample[i]
           #偏置更新        
            out_offset +=hid_learnrate * out_delta
            hid_offset +=input_learnrate *hid_delta
    return w1,w2,hid_offset,out_offset

预测

  1. 将权重,偏置带入,进行前向过程
  2. 预测神经网络的输出值,其输出的最大值索引即为最后结果
  3. 结果存储

代码实现

def test():
    train_sample,train_label = LoadTrainData()     #训练数据
    w1,w2,hid,out = TrainNetwork(train_sample,train_label)       #训练后的权重
    print("训练完毕")
    test_data = LoadTestData()           #测试数据
    print("测试文件导入完毕")
    #前向过程
    hid_result = np.dot(test_data,w1)+hid    
    hid_act_result = sigmoid(hid_result)

    out_result = np.dot(hid_act_result,w2)+out
    out_act_result = sigmoid(out_result)
    
    result = []
    imageid = []
    #预测输出的最大值索引即为最后结果
    for i in range(len(out_act_result[:,0])):
        p = np.argmax(out_act_result[i])
        number = i+1
        imageid.append(number)
        result.append(p)
    saveResult(result,imageid)
    print("结果存储完毕")
#存储结果
 def saveResult(result,imageid):
     with open('result.csv','w',encoding='utf8',newline='') as myfile:
         myWriter = csv.writer(myfile)
         myWriter.writerow(["ImageId","Label"])
         for i in range(len(result)):
             tmp = []
             tmp.append(imageid[i])
             tmp.append(result[i])
             myWriter.writerow(tmp)
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,864评论 6 494
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,175评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,401评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,170评论 1 286
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,276评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,364评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,401评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,179评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,604评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,902评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,070评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,751评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,380评论 3 319
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,077评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,312评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,924评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,957评论 2 351

推荐阅读更多精彩内容