登录注册写文章

决策树算法

决策树算法

ID3算法

使用信息增益选择特征，递归构建决策树。

ID3相当于用极大似然法进行概率模型的选择（最大熵模型）。

输入：训练数据集D，特征集A，阈值 $\varepsilon$

输出：决策树T

（1）若D中所有实例属于同一类 $C_{k}$ ，则T为单结点树， $C_{k}$ 作为该结点的类标记，返回T。

（2）若A= $\phi$ ，则T为单结点树，并将D中实例数最大的类 $C_{k}$ 作为该结点的类标记，返回T。

（3）计算A中各特征对D的信息增益，选择信息增益最大的特征 $A_{g}$ 。

（4）如果 $A_{g}$ 的信息增益小于阈值 $\varepsilon$ ，则置T为单结点树，并将D中实例数最大的类 $C_{k}$ 作为该结点的类标记，返回T。

（5）对 $A_{g}$ 的每一可能值 $a_{i}$ ，依 $A_{g}=a_{i}$ 将D分割为若干非空子集 $D_{i}$ ，构建子结点，由结点D和子结点 $D_{i}$ 构成树T，返回T。

（6）对第i个子结点，以 $D_{i}$ 为训练集，以 $A-\left\{ A_{g} \right\}$ 为特征集，递归调用(1)~(5)

(1)(2)(4)得到单结点树，作为递归终止条件

(5)生成多叉树，有多少可能值就有多少分支

(6)每个子树进行递归，从剩余所有特征中选择

C4.5算法：使用信息增益比选择特征。

决策树的剪枝

剪枝(pruning)，从已生成的树上裁掉一些子树或叶结点，并将其父结点作为新的叶结点。

决策树剪枝，类似线性回归中的正则化，包括预剪枝和后剪枝。

预剪枝是在决策树生成过程中，提前结束结点的分裂，一般包括:

• 树到达一定深度

• 结点下包含的样本点小于一定数目

• 信息增益小于一定的阈值

• 结点下所有样本都属于同一个类别

• 性能在划分后没有提高或提高不多

后剪枝通过极小化决策树整体的损失函数实现。

设树T的叶结点个数为 $\vert T \vert$ ，t是树T的叶结点，该叶结点有 $N_{t}$ 个样本点， $H_{t}(T)$ 为叶结点t上的经验熵， $\alpha \geq 0$ 为参数，则决策树的损失函数可以定义为

$C_{\alpha }(T)=\sum_{t=1}^{\vert T \vert } N_{t}H_{t}(T)+\alpha \vert T \vert$

$=C(T)+\alpha \vert T \vert$

C(T)表示模型与训练数据的拟合程度，|T|表示模型复杂度， $\alpha$ 控制两者之间的影响。

损失函数的极小化等价于正则化的极大似然估计。

决策树生成学习局部模型，决策树剪枝学习整体模型。

剪枝算法

输入：生成算法产生的整个树T，参数 $\alpha$

输出：修剪后的子树 $T_{\alpha }$

（1）计算每个结点的经验熵。

（2）递归的从叶结点向上回缩。计算回缩前后，整体树的损失函数值。如果损失函数值减少，则进行剪枝。

（3）返回（2）直到不能继续为止，得到损失函数最小的子树 $T_{\alpha }$

只考虑两个树的损失函数的差，其计算可以在局部进行，所以剪枝算法可以使用动态规划实现。

CART算法

分类与回归树(classification and regression tree)，生成二叉树。

回归树使用平方误差最小，分类树使用基尼指数最小，进行特征选择。

1.回归树的生成

X和Y是输入和输出变量，并且Y是连续变量，给定训练数据集 $D=\left\{ (x_{1},y_{1}),(x_{2},y_{2}),...,(x_{N},y_{N}) \right\}$

假设已将输入空间划分为M个单元 $R_{1},R_{2},...,R_{M}$ ，并且每个单元 $R_{m}$ 上有一个固定的输出值 $c_{m}$ ，于是回归树模型可以表示为 $f(x)=\sum_{m=1}^M c_{m}I(x\in R_{m})$

单元 $R_{m}$ 上的 $c_{m}$ 的最优值是 $R_{m}$ 上的所有输入实例 $x_{i}$ 对应的输出 $y_{i}$ 的均值，即

$\hat{c_{m}}=ave(y_{i}|x_{i}\in R_{m})$

用平方误差 $\sum_{x_{i}\in R_{m}}(y_{i}-f(x_{i})) ^2$ 最小的准则求解每个单元上的最优输出值。

采用启发式方法，对输入空间进行划分。选择第j个变量 $x^{(j)}$ 和它取的值s，作为切分变量和切分点，并定义两个区域：

$R_{1}(j,s)=\left\{ x|x^{(j)}\leq s \right\}$ 和 $R_{2}(j,s)=\left\{ x|x^{(j)} >s \right\}$

寻找最优切分变量j和最优切分点s，求解

$min_{j,s}[min_{c_{1} }\sum_{x_{i}\in R_{1}(j,s)}(y_{i}-c_{1})^2+min_{c_{2} }\sum_{x_{i}\in R_{2}(j,s)}(y_{i}-c_{2})^2]$

其中 $\hat{c_{1}}=ave(y_{i}|x_{i}\in R_{1}(j,s))$ 和 $\hat{c_{2}}=ave(y_{i}|x_{i}\in R_{2}(j,s))$

找到最优对(j,s)，依此将输入空间划分为两个区域。

连续变量通过减少方差，来减少不确定性。

重复上述划分过程，直到满足停止条件，称为最小二乘回归树。

2.分类树的生成

分类树使用基尼指数选择最优特征，同时决定该特征的最优二值切分点。

分类问题中，假设有K个类，样本点属于第k类的概率为 $p_{k}$ ，则概率分布的基尼指数定义

$Gini(p)=\sum_{k=1}^Kp_{k}(1-p_{k}) =1-\sum_{k=1}^Kp_{k}^2$

Gini(D) 反映从数据集 D 中随机抽取两个样本，其类别不一致的概率。使用基尼指数代替熵，计算更加简单。

对于二分类问题，若样本点属于第1类的概率p，则概率分布的基尼指数为

$Gini(p)=2p(1-p)$

对于给定的样本集合D，其基尼指数为 $Gini(D)=1-\sum_{k=1}^K (\frac{|C_{k}|}{|D|} )^2$

$C_{k}$ 是D中属于第k类的样本子集，K是类的个数。

样本集合D根据特征A是否取某一可能值a被分割为 $D_{1}$ 和 $D_{2}$ 两部分，即

$D_{1}=\left\{ (x,y)\in D|A(x)=a \right\} ，D_{2}=D-D_{1}$

则在特征A的条件下，集合D的基尼指数定义

$Gini(D,A)=\frac{|D_{1}|}{D}Gini(D_{1}) + \frac{|D_{2}|}{D}Gini(D_{2})$

Gini(D)表示集合D的不确定性，Gini(D,A)表示经过A=a分割后集合D的不确定性。基尼指数越大，样本集合的不确定性也越大。

参考：《统计学习方法》

最后编辑于：2020.07.29 10:46:03

©著作权归作者所有,转载或内容合作请联系作者

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 218,204评论 6赞 506
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 93,091评论 3赞 395
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 164,548评论 0赞 354
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,657评论 1赞 293
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,689评论 6赞 392
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,554评论 1赞 305
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,302评论 3赞 418
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,216评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,661评论 1赞 314
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,851评论 3赞 336
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,977评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,697评论 5赞 347
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,306评论 3赞 330
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,898评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,019评论 1赞 270
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,138评论 3赞 370
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,927评论 2赞 355

赞1赞

赞赏

手机看全文