python与机器学习(二.决策树与随机森林)

香农熵

变量的不确定性越大,熵也就越大,把它搞清楚所需要的信息量也就越大。例如,在一个数据集dataset中,dataset = [[1,1,'yes'],[1,1,'yes'],[1,0,'no'],][0,1,'no'],[0,1,'no']],在数据集dataset中随机挑一个实例,挑出标签值为'yes'的概率为0.4,挑出标签值为‘no’的概率为0.6,这个数据集的熵值计算为

-0.6*log(0.6,2)-0.4*log(0.4,2) = 0.9709505944546687

下面有个函数可以用于计算给定数据集的香农熵:

计算香农熵的函数
以上函数的使用

香农熵主要是作为一个指标用于指导划分数据集,以下函数用于按照特定特征划分数据集

划分数据集

信息增益(ID3)

基于香农熵的概念和以上两个函数,我们可以再写一个函数用于计算如何给一个数据集进行划分,通过对数据集的每一个特征属性进行划分,然后计算划分后的所有数据集熵值与其概率的乘积之和,并与数据集划分前原始数据集的熵值相比较,计算降低的熵值。这部分降低的熵值就被成为‘信息增益’(用ID3表示),通过比较各特征属性的信息增益后,可以推算出按照哪种特征属性分类信息增益最大,就用这种方式进行分类。

判断如何划分数据集

这种分类方法看似很厉害,但是仍存在一个BUG:例如,你给每个值标一个ID,然后将ID作为一个特征项划分数据集后得出的熵值是零,而对应的信息增益则最大,这显然是不对的,为了规避在个问题,我们引入了另一个概率,信息增益率(C4.5)。

信息增益率(C4.5)

信息增益率 = 信息增益值/数据集本身的熵值

例如:接着上面的例子,数据集dataset = [[1,1,'yes'],[1,1,'yes'],[1,0,'no'],][0,1,'no'],[0,1,'no']]的熵值为

-0.6*log(0.6,2)-0.4*log(0.4,2) = 0.9709505944546687

然后给数据集每个实例添加一个特征属性ID,dataset = [[1,1,1,'yes'],[2,1,1,'yes'],[3,1,0,'no'],][4,0,1,'no'],[5,0,1,'no']],如果按照ID划分数据集得出的熵值增益是0.97095059445466870 - 0 = 0.9709505944546687

但是数据集本身按照ID作为标签计算的熵值则是-1/5log(1/5,2)*5 = log(5,2),所以信息增益率为

0.9709505944546687/log(5,2) = 0.41816566007905165


决策树

决策树的基本逻辑就是基于以上算法的:得到原始数据集后,基于各种特征属性的信息增益(ID3)的判断下一步通过哪个属性值划分数据集,由于特征值可能多于两个,因此可能存在大于两个分支的数据集划分。经过一次划分之后,数据将被向下传递到树分支的下一个节点,这个节点上,我们可以再次划分数据。我们利用这个逻辑,递归的处理数据集,直到程序遍历完所有划分数据集的属性,或者每个分支下的所有实例都具有相同的分类。

生成决策树的函数

连续值的处理逻辑

我们在前面处理的数值都是离散了,但是如果我们需要处理连续值又该怎样处理呢

随机森林

好了,在引入决策树算法以后,我们可以扩展出一个新概念,叫“随机森林”

使用sklearn实现决策树的代码

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,547评论 6 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,399评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,428评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,599评论 1 274
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,612评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,577评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,941评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,603评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,852评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,605评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,693评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,375评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,955评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,936评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,172评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,970评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,414评论 2 342

推荐阅读更多精彩内容