分类练习题2

5.考虑如下二元分类问题的数据集。

a.    计算按照属性A和属性B划分时的属性增益。决策树归纳算法将会选择哪个属性?

属性A和属性B的不测事件表如下:

划分前的总熵为:Eorig=-0.4log20.4-0.6log20.6=0.9710

按照属性A划分后的信息增益为:

EA=T=-(4/7)×log2(4/7)-(3/7)×log2(3/7)=0.9852

EA=F=-(3/3)×log2(3/3)-(0)×log2(0)=0

Δ=Eorig-7/10×EA=T-3/10×EA=F=0.2813

按照属性B划分后的信息增益为:

因此选择属性A来划分结点。

b.    计算按照属性A和属性B划分时的Gini指标。决策树归纳算法将会选择哪个属性?

总的Gini指数为:Gorig = 1 0.42 − 0.62 = 0.48

属性A的Gini增益为:

GA=T=1-(4/7)2-(3/7)2=0.4898

GA=F=1-(3/3)2-(0/3)2=0

ΔA= Gorig -7/10*GA=T-3/10*GA=F=0.1371

同理ΔB=0.1633.

因此选择属性B来划分结点。

b.从图4-13可以看出熵和Gini指标在区间[0,0.5]都是单调的,而在[0.5,1]之间时单调递减的。有没有可能信息增益和Gini指标支持不同的属性?解释你的理由。

是的,尽管这些度量具有相似的范围和单调的行为,但它们各自的增益,即度量的标度差,并不一定以相同的方式表现,如(a)和(b)部分的结果所示。

6.考虑如下训练样本集:

a.用之前介绍的贪心算法计算两层的决策树。使用分类差错率作为划分标准。决策树的总差错率是多少?

第一层的划分属性:

为了确定根节点的测试条件,我们需要确定属性X、Y、和Z的差错率。属性X的相应计数为:

属性X的差错率为:(60+40)/200=0.5

属性Y的相应计数为:

因此属性Y的差错率为 (40 + 40)/200 = 0.4.

属性Z的相应计数为:

属性Z的差错率为 (30 + 30)/200 = 0.3.

Z的差错率最低,选择Z作为第一层的划分属性.

第二层的属性划分:

在确定第一层划分属性Z后,接下来的测试条件包含X或Y,这取决于服从于Z=0和Z=1子节点的训练样本集。

Z=0时,X和Y的相应计数是一样的,如下表。

差错率都是(15+15)/100=0.3

Z=1时,X和Y的相应计数为:

虽然计数有些许不同,他们的差错率还是不变(15+15)/100=0.3.

两层决策树如下图。

Z=0时,决策C2,Z=1时,决策C1.第一层。

X或Y=0时,决策C2,X或Y=1时,决策C1.第二层。

决策树的总差错率为叶子结点的分类与训练集记录不同的数目占比:(15+15+15+15)/200=0.3.


b.使用X作为第一个划分属性,两个后继节点分别在剩余的属性中选择最佳划分属性,重复步骤(a).所构造的决策树的差错率是多少?

选择X作为第一个划分属性,下一个结点的划分属性要么是Y要么是Z。

X=0时,Y和Z的相应计数如下表:

属性Y的差错率为:(5+5)/120=0.083 属性Z 差错率为:(15+15)/120=0.25

选择Y作为下一结点的划分属性。

X=1时,Y和Z的相应计数分别如下表:

属性Y的差错率为:(5+5)/80=0.125 属性Z的差错率为:(15+15)/80=0.375

选择属性Y作为下一结点的划分属性。相应的两层决策树如下:

X=0或1时,C1,C2计数相同,决策C1或C2,第一层。 X=0且Y=0时,C1计数5,C2计数55,故决策C2.
决策树的总差错率为叶子结点的分类与训练集记录不同的数目占比:(10+10)/200=0.1

c.比较a,b的结果,评述在划分属性上启发式贪心算法的作用。

从前面的结果来看,(a)部分的错误率明显大于(b)部分的错误率。这个例子表明贪婪的启发式并不总是产生一个最优的解决方案。

7.下表汇总了具有三个属性A,B,C,以及两个类标号+ ,-的数据集。建立一棵两层决策树。


a.根据分类差错率,哪个属性应当选做第一层划分属性?对每个属性,给出相依表和分类差错率的增益。

未根据任何属性划分记录时的差错率为:Eorig=1-max{50/100.50/100}=0.5

根据属性A划分时:

EA=T=1-max(25/25,0/25)=0 EA=F=1-max(50/75,25/75)=25/75 ΔA= Eorig -25/100 * EA=T -75/100 * EA=F =0.25

根据属性B划分时:

EB=T=1-max(30/50,20/50)=0.4 EB=F=1-max(30/50,20/50)=0.4 ΔB= Eorig -50/100 * EB=T -50/100 * EB=F =0.1

根据属性B划分时:

EC=T =25/50 EC=F =25/50 ΔC = Eorig – 50/100EC=T – 50/100EC=F =0/100= 0

应该选择属性A作为第一层划分属性,因为A有最大增益。

b.对根结点的两个子女结点重复以上问题。

因为A=T子节点是纯节点,所以不需要进一步拆分。对于A=F子节点,训练实例的分布为:

A=F子节点的划分差错率为:Eorig =25/75

根据属性B划分时的差错率增益为:

EB=T =20/45 EB=F =0 ΔB = Eorig – 45/75EB=T – 30/75EB=F =1/15

根据属性C划分时:

EC=T =0 EC=F =25/50=0.5 ΔC = Eorig –25/75*EC=T – 50/75EC=F =0/100= 0

选择属性B进行划分。

c.最终决策树的错误分类的实例数是多少?

20

d.使用C作为划分属性,重复a,b,c。

(1)C=T子结点的差错率为:Eorig = 25/50

下一层根据属性A划分后的差错率增益为:

EA=T = 0  EA=F = 0 ΔA =25/50

下一层根据属性B划分后的差错率增益为:

EB=T = 5/25  EB=F = 5/25 ΔA =15/50

因此,选择属性A划分

(2)对于C=F子结点,划分前的错误率为:Eorig=25/50。

在属性A上划分后,错误率增益为:

在属性B上划分后,错误率为:

因此,B用作划分属性。决策树的总错误率为0。

e.使用c,d结果分析决策树归纳算法贪心的本质。

贪婪的启发式不一定能得到最好的树。

8.考虑如下决策树。

a.使用乐观方法计算决策树的泛化差错率。

3/10=0.3

b.使用悲观方法计算决策树的泛化差错率。(增加因子0.5)

(3+4×0.5)/10=0.5

c.使用提供的确认集计算决策树的泛化误差。这种方法叫做降低误差剪枝

根据reduced error pruning approach,泛化误差为1/5=0.2

9.考虑下图决策树。假设产生决策树的数据集包含16个二元属性三各类C1,C2和C3.

根据最小描述长度原则计算每颗决策树的总描述长度。

树的整体描述长度由下式给出:

Cost(tree,data)=Cost(tree)+Cost(data|tree)

树的每个内部结点用划分属性ID进行编码。如果有m个属性,为每个属性编码的代价是log2m个二进位。

每个叶结点使用与之相关的类的ID编码。如果有k个类,为每个类编码的代价是log2k个二进位。

Cost(tree)是对决策树的所有结点编码的开销。为了简化计算,可以假设决策树的总开销为对每个内部结点和叶结点编码开销的总和。

Cost(data|tree)是对决策树在训练集上的分类错误编码的开销。每个开销用log2n个二进位编码,其中n是训练实例的总数。

根据MDL原则,哪个决策树好?

有16个属性,则树内部每个结点的代价是:log2(16)=4,三个类,则叶结点的代价是:[log2(3)]=2.每次错误划分的代价是log2(n)。

树a的总代价是2×4+3×2+7×log2 n = 14+7 log2 n ,树b的总代价是is 4×4+5×2+4×5 = 26+4 log2 n.根据最小描述长度原则,如果n<16则树a的代价小于b,树a更好;否则b更好。

10.尽管.632自助法可以对模型的准确率做出可靠的估计,但是该方法也有明显的局限性。考虑一个二元分类问题,其中数据包含的正样本和负样本的数目相同,假设每个样本分类标号都是随机产生的,所用分类器是一棵未剪枝的决策树(即完全忠实的写照)。使用下面的方法确定分类器的准确率:

a.保持方法,使用三分之二的数据作为训练数据,剩余的三分之一作为检验数据。

b.十折交叉验证。

c..632自助方法。

d.从a,b,c的结果看,哪种方法对分类器的准确率提供了可靠的估计?

a.假设训练集和测试集具有同等代表性,测试错误率会接近50%。

b.假设每一折训练集和测试集都具有同等代表性,测试错误率会接近50%。

c.当每个自助样本的错误率接近50%时一个完美存储器的训练错误率是100%,把这个信息带入.632自助法中的公式,错误估计为

d.十折交叉验证和保持方法比.632自助法提供了更好的错误估计。

11.考虑如下测试分类法A是否优于另一个分类法B的方法。设N是数据集的大小,pA是分类法A的准确率,pB是分类法B的准确率,而p=(pA+pB)/2是两种分类法的平均准确率。为了测试A是否显著优于B,使用Z统计量。

如果Z>1.96,则认为A分类法优于分类法B。下表在不同的数据集上比较了三个不同分类方法的准确率:决策树分类法、朴素贝叶斯分类法和支持向量机。

用下面的3×3表格汇总上表的分类法在数据上的分类性能。

表中每个单元的内容包含比较行与列的两个分类器时的赢、输和平的数目。

12.设X是一个均值为Np、方差为Np(1-p)的二元随机变量。证明比率X/N也服从均值为p、方差为p(1-p)/N的二项分布。

设r=X/N,既然X服从二项分布,则r也服从同样的分布,r的均值和方差可以计算如下:

均值E[r] = E[X/N] = E[X]/N = (Np)/N = p;

方差:E[(r − E[r])2] = E[(X/N − E[X/N])2]

= E[(X − E[X])2]/N2

= Np(1 − p)/N2

= p(1 − p)/N

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,133评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,682评论 3 390
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,784评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,508评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,603评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,607评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,604评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,359评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,805评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,121评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,280评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,959评论 5 339
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,588评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,206评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,442评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,193评论 2 367
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,144评论 2 352

推荐阅读更多精彩内容

  • 4.1预备知识:分类任务的输入数据是记录的集合。每条记录也称实例或样例,用元组(x,y)表示,其中x是属性的集=集...
    从此不迷茫阅读 2,355评论 0 2
  • 4.1 基本流程 决策树:基于树结构进行分类决策的机器学习方法。一颗决策树一般包含一个根结点、若干个内部结点和若干...
    SibyLtuI阅读 595评论 0 0
  • 决策树理论在决策树理论中,有这样一句话,“用较少的东西,照样可以做很好的事情。越是小的决策树,越优于大的决策树”。...
    制杖灶灶阅读 5,848评论 0 25
  • 1)这本书为什么值得看: Python语言描述,如果学的Python用这本书学数据结构更合适 2016年出版,内容...
    孙怀阔阅读 12,463评论 0 15
  • 4.1 基本流程 决策树(decision tree)是一类常见的机器学习方法,它是基于树结构来进行决策的,这是人...
    lammmya阅读 1,007评论 0 0