决策树 | 训练决策树

01 起

决策树相关的理论知识,我们在这篇文章中有详细讲解。

今天我们拿起python这个工具,基于决策树原理,写一个函数来训练决策树吧。本文基于ID3算法构建决策树,此算法构建决策树的中心思想是:

始终寻找信息增益最大的特征作为当前分支的最优特征

信息增益,即:g(D,A)=H(D)-H(D|A)

02 实现思路(ID3)

利用训练数据,训练决策树,主要思路如下,共8个步骤,重点在于递归

  1. 自定义信息熵计算函数,用于计算数据集的信息熵
  2. 自定义数据划分函数,用于根据指定特征的指定取值,划分数据集
  3. step2的自数据集作为输入给step1的函数,可以计算出按某指定特征的某指定取值(A=ai)划分的数据集的信息熵H(Di),同时计算按某指定特征的某指定取值(A=ai)划分的数据集的样本概率|Di|/|D|
  4. 遍历该特征各个取值,计算各取值下划分的数据集的信息熵H(Di)和样本概率|Di|/|D|,相乘,再求和得到得到特征A对数据集D的经验条件熵H(D|A)
  5. 计算特征A对数据集的信息增益g(D,A)=H(D)-H(D|A)
  6. 以此类推,计算各特征对数据集的信息增益,取信息增益最大的特征为最佳划分特征,得到树T1
  7. 对T1各结点继续step3-6,选择信息增益最大的特征,继续划分数据,得到新的决策树
  8. 直到信息增益小于阈值,或无特征可划分,或每个分支下的所有实例都具有相同的分类,决策树完成

下面我们基于这8个步骤的思路,给出python代码。

03 实现

step1 自定义信息熵计算函数,用于计算数据集的信息熵

"""
输入:数据集,每一行是一条数据,最后一列是各条数据集的类别
输出:该数据集的信息熵
思路:
建立一个字典,对数据集各数据的类别计数,
从而计算各类别出现频率(作为概率pi),
最后调用信息熵公式计算 H(D)=-求和(pi*logpi)
"""
def calEntropy(dataset):
    n=len(dataset)
    labelCounts={}
    
    #对数据集各数据的类别计数
    for data in dataset:
        datalabel=data[-1] #取data最后一列,类别列
        if datalabel not in labelCounts.keys():
            labelCounts[datalabel]=0
        labelCounts[datalabel]+=1
    
    entropy=0.0
    
    #计算各类别出现频率(作为概率pi),调用信息熵公式计算 H(D)=-求和(pi*logpi)
    for key in labelCounts.keys():
        prob=float(labelCounts[key])/n
        entropy -= prob*log(prob,2)
    return entropy

step2 自定义数据划分函数,用于根据指定特征的指定取值,划分数据集

"""
输入:数据集、特征所在列索引、特征取值
输出:满足指定特征等于指定取值的数据子集
"""
def splitDataset(dataset,index,value):
    subDataset=[]
    for data in dataset:
        if data[index]==value:
            #抽取除了data[index]的内容(一个特征用于计算其对数据集的经验条件熵时,不需要此特征在子数据集中)
            splitData=data[:index] #取索引之前的元素
            splitData.extend(data[index+1:]) #再合并索引之后的元素
            subDataset.append(splitData)
    return subDataset

step3~6 选择信息增益最大的特征作为数据集划分特征

"""
输入:数据集
输出:该数据集的最佳划分特征
"""
def chooseFeature(dataset):
    #初始化
    numFeature=len(dataset[0])-1 #因为最后一列是类别
    baseEntropy=calEntropy(dataset) #H(D)
    bestInfoGain=0.0
    bestFeatureIndex=-1
    
    #创建特征A各取值a的列表
    for i in range(numFeature):
        featureList=[data[i] for data in dataset]
        uniqueValue=set(featureList)
        empEntropy=0.0 #初始化特征A对数据集D的经验条件熵H(D|A)
        
        #计算特征A各取值a的信息熵H(Di)和样本概率|Di|/|D|,并相乘
        for value in uniqueValue:
            subDataset=splitDataset(dataset,i,value) #(列索引为i的特征)特征A取value值所划分的子数据集
            prob=len(subDataset)/float(len(dataset)) #计算|Di|/|D|
            empEntropy += prob*calEntropy(subDataset) #H(D|A)
        
        #取信息增益最大的特征为最佳划分特征
        infoGain=baseEntropy-empEntropy #信息增益
        if infoGain>bestInfoGain:
            bestInfoGain=infoGain
            bestFeatureIndex=i
    return bestFeatureIndex

step7~8 递归构建决策树

def majorClass(classList):
    classCount={}
    for vote in classList:
        if vote not in classCount.keys():
            classCount[vote]=0
        classCount[vote]+=1
    
    #对classCount按value降序排序
    sortedClassCount=sorted(classCount.items(),key=operator.itemgetter(1),reverse=True)
    return sortedClassCount[0][0] #返回类别最大的类别名

"""
输入:数据集(list类型),数据集特征列表(按在数据集的位置排序)(list类型)
输出:该数据集的决策树
思路:【递归】
    1. 若数据集属于同一类,则返回该类别,划分停止
    2. 若数据集所有特征已经遍历,返回当前计数最多的类别为该结点类别,划分停止
    3. 否则继续分支,调用chooseFeature()函数,选择当前数据集最优特征
    4. 遍历当前最优特征各属性值,划分数据集,并递归调用自身createTree()构建子数据集的决策树
    5. 完成
"""
def createTree(dataset,featureLabels):
    classList=[data[-1] for data in dataset] #取数据集各数据类别
    
    #若数据集属于同一类,则返回该类别,划分停止
    if classList.count(classList[0])==len(classList):
        return classList[0]
    
    #若数据集所有特征已经遍历,返回当前计数最多的类别为该结点类别,划分停止
    if len(dataset[0])==1:
        return majorClass(classList)
    
    #否则继续分支,调用chooseFeature()函数,选择当前数据集最优特征
    bestFeatureIndex=chooseFeature(dataset)
    bestFeature=featureLabels[bestFeatureIndex]
    
    #用于存储决策树,字典结构存储树的所有信息,并可体现包含关系
    desitionTree={bestFeature:{}} 
    del(featureLabels[bestFeatureIndex]) #删除已被用于划分数据的特征
    
    #得到当前最优划分特征的各属性值
    featureValues=[data[bestFeatureIndex] for data in dataset]
    uniqueValues=set(featureValues)
    
    #遍历当前最优特征各属性值,划分数据集,并递归调用自身createTree()构建子数据集的决策树
    for value in uniqueValues:
        #得到已删除当前最优划分特征的特征列表,用于递归调用
        subFeatureLabels=featureLabels[:] 
       
        #用当前最优划分特征的指定值分割子数据集,用于递归调用
        subData=splitDataset(dataset,bestFeatureIndex,value) 
        desitionTree[bestFeature][value]=createTree(subData,subFeatureLabels)
    return desitionTree

至此,决策树训练函数完成,下面我们利用西瓜分类数据集来简单测试一下吧~

04 测试

西瓜分类数据集长这样,基于西瓜的各个特征,判断西瓜是好瓜还是坏瓜:

我们直接调用刚才写好的决策树训练函数,看看西瓜分类数据的决策树吧

watermalon=pd.read_csv(r"D:\python\data\watermalon.txt",sep="\t")
watermalon_list=np.array(watermalon).tolist() #构建数据集
features=watermalon.columns.tolist()[0:-1] #提取特征列表
my_tree=createTree(watermalon_list,features)

最后训练得到的决策树长这样,这是一个嵌套格式的字典,每个子字典代表了一个分支

05 总结

本文基于ID3算法,造了个轮子,给出决策树训练函数,输入列表类型的数据集和数据集的特征列表,可以数据该数据集的分类决策树,得到的决策树使用嵌套格式的字典存储。

但是,嵌套格式的字典并不直观,不能一目了然地观察决策树结构。

别担心,下期我们会就此决策树,给出函数来绘制决策树,帮助我们更加直观地理解训练出来的决策树结构。

同时,我们会在下期给出决策树的利用方法——如何利用训练好的决策树分类测试数据?

敬请期待~~

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,463评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,868评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,213评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,666评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,759评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,725评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,716评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,484评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,928评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,233评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,393评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,073评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,718评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,308评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,538评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,338评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,260评论 2 352

推荐阅读更多精彩内容

  • 决策树理论在决策树理论中,有这样一句话,“用较少的东西,照样可以做很好的事情。越是小的决策树,越优于大的决策树”。...
    制杖灶灶阅读 5,848评论 0 25
  • 前言: 通过第前面的学习介绍了机器学习回归模型创建的流程,并且知道了机器学习要做的事情是找到目标函数,优化它,通过...
    飘涯阅读 6,384评论 4 83
  • 端午节假期的第一天,在学校门口随意摆摊的小贩那里买了一只本应该是蜜枣粽的蜜豆粽子(老板拿错了)和两颗我期待它流油却...
    何微然阅读 380评论 0 0
  • 人的一生在学校的时间是有限的,所学的知识也受时代的局限,学生们要在未来有所作为,要在未来跟上时代,就必须要...
    ly317223阅读 271评论 0 0
  • 妈妈对着镜子拔出了一根头发,一边自言自语着:“天啊,这么快我就有白头发了。” 在旁边的爸爸翻着早报轻轻说:“很好啊...
    白谎话阅读 150评论 0 0