我的第一个Kaggle竞赛

本文根据大数据竞赛平台——Kaggle 入门篇的代码修改而来

  • Kaggle手写数字竞赛网址
import csv
from array import array
from numpy import *
import scipy.io
  • train.csv是训练样本集,大小42001x785,第一行是文字描述,所以实际的样本数据大小是42000x785,其中第一列的每一个数字是它对应行的label,可以将第一列单独取出来,得到42000x1的向量trainLabel,剩下的就是42000x784的特征向量集trainData,所以从train.csv可以获取两个矩阵trainLabel、trainData。
    下面给出代码,另外关于如何从csv文件中读取数据,参阅:csv模块的使用
def loadTrainData():  
    l=[]  
    with open('train.csv') as file:  
        lines=csv.reader(file)  
        for line in lines:  
            l.append(line) #42001*785  
    l.remove(l[0]) 
    l=array(l) 
    label=l[:,0]  
    data=l[:,1:]  
    return nomalizing(toInt(data)),toInt(label) 
  • 这里还有两个函数需要说明一下,toInt()函数,是将字符串转换为整数,因为从csv文件读取出来的,是字符串类型的,比如‘253’,而我们接下来运算需要的是整数类型的,因此要转换,int(‘253’)=253。toInt()函数如下:
#toInt()函数,是将字符串转换为整数
def toInt(array):  
    array = mat(array)  
    m,n = shape(array)  
    newArray=zeros((m,n))  
    for i in range(m):  
        for j in range(n):  
                newArray[i,j]=int(array[i,j])  
    return newArray  
  • nomalizing()函数做的工作是归一化,因为train.csv里面提供的表示图像的数据是0~255的,为了简化运算,我们可以将其转化为二值图像,因此将所有非0的数字,即1~255都归一化为1。nomalizing()函数如下:
def nomalizing(array):  
    m,n=shape(array)  
    for i in range(m):  
        for j in range(n):  
            if array[i,j]!=0:  
                array[i,j]=1  
    return array  
  • test.csv里的数据大小是28001x784,第一行是文字描述,因此实际的测试数据样本是28000x784,与train.csv不同,没有label,28000x784即28000个测试样本,我们要做的工作就是为这28000个测试样本找出正确的label。所以从test.csv我们可以得到测试样本集testData,代码如下:
def loadTestData():  
    l=[]  
    with open('test.csv') as file:  
        lines=csv.reader(file)  
        for line in lines:  
            l.append(line)  
    #28001*784  
    l.remove(l[0])  
    data = array(l)  
    return nomalizing(toInt(data)) 
  • 这里我们采用kNN算法来分类,核心代码:
def classify(inX, dataSet, labels, k):  
    inX = mat(inX)  
    dataSet = mat(dataSet)  
    labels = mat(labels)  
    dataSetSize = dataSet.shape[0]                    
    diffMat = tile(inX, (dataSetSize,1)) - dataSet     
    sqDiffMat = array(diffMat)**2  
    sqDistances = sqDiffMat.sum(axis=1)                    
    distances = sqDistances**0.5  
    sortedDistIndicies = distances.argsort()              
    classCount={}                                        
    for i in range(k):  
        voteIlabel = labels[0,sortedDistIndicies[i]]  
        classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1  
    sortedClassCount = sorted(classCount.items(), key=lambda d:d[1], reverse=True)  
    return sortedClassCount[0][0]  

python中csv模块写文件时总是空一行的解决办法1办法2办法3办法4

def saveResult(result):  
    with open('result.csv','w',newline='') as myFile:    #加newline=''  
        myWriter = csv.writer(myFile)  
        for i in result:  
            tmp=[]  
            tmp.append(i)  
            myWriter.writerow(tmp)  
def handwritingClassTest():  
    trainData,trainLabel=loadTrainData()  
    testData=loadTestData()  
    m,n=shape(testData)  
    resultList=[]  
    for i in range(m):  
        classifierResult = classify(testData[i], trainData, trainLabel, 5)  
        resultList.append(classifierResult)  
    saveResult(resultList)  
handwritingClassTest()

去除result文件中的空行

def delblankline(infile, outfile):
    """ Delete blanklines of infile """
    infp = open(infile, "r")
    outfp = open(outfile, "w")
    lines = infp.readlines()
    for li in lines:
        if li.split():
            outfp.writelines(li)
    infp.close()
    outfp.close()
#调用示例
if __name__ == "__main__":
    delblankline("result.csv","ok.csv")

根据Kaggle上的sample_submission.csv文件的格式修改我们得到的预测值文件,并上传到Kaggle上,最终准确率为96.399%:

kaggle手写数字准确率
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,884评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,755评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,369评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,799评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,910评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,096评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,159评论 3 411
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,917评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,360评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,673评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,814评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,509评论 4 334
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,156评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,882评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,123评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,641评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,728评论 2 351

推荐阅读更多精彩内容