数据挖掘课后习题 第8章

8.1主要步骤如下:

1.先从考虑构建一个根节点(包含所有的训练元组)开始,如果所有的元组都属于同一个类,那么这个根节点也是一个叶子节点,并给其赋上元组所属的类标签。如果这些元组不属于同一个类,则应该确定一种属性选择度量(又称为分裂规则),以达到把给定类标记的训练元组“最好地”划分成单独类的目的。这种分裂规则的选择可以通过启发式的方法或者统计学度量(如,信息增益,基尼指数)来确定。更具体地说,分裂准则指定分裂属性,并且也指出分裂点或分裂子集。

2.再确定了一个结点的分裂准则后,需要在此结点上进行测试。对于分裂准则的每个输出,测试结点生长出一个分枝,测试结点所包含的的元组也据此进行划分。有三种可能的划分情况:(1)如果分裂属性是离散值的,那么该属性的每一个已知值对应于一个分枝。(2)如果分裂属性是连续值的,那么生长出两个分枝,对应的条件分别是“属性值≤分裂点”和“属性值>分裂点”。(3)如果一个属性是离散的,并且要求产生一棵二叉树(比如,将基尼指数作为属性选择度量),此时在测试结点上进行的是形如“属性值∈SA”的测试,其中SA是属性A的分裂子集(属性值A的已知值的子集)。相应的,二叉树的两个分枝分别对应测试结果为“yes”和“no”的元组子集。

3.对于每个结果分区上的元组,算法使用同样的过程递归地形成决策树。递归终止的条件为:

(1)如果一个结点所表示的元组属于同一类时,将此结点视为叶子结点,并用元组所属的类标号进行标记。

(2)如果没有剩余属性可以用来进一步划分元组,采用多数表决的方式,将此结点转换成树叶,并用多数类标记它。

(3)如果给定的分枝没有元组,则使用测试结点代表数据的多数类创建一个树叶。

8.4

考虑最坏情况:在每一次选择分裂属性时,都存在大量可选择的属性。因为训练元组数为|D|,所以树的最大深度为log(|D|)。在树的每一层,各个结点所代表的元组总数最多为|D|,在选择分裂属性时,最多有n个属性可以选择,所以树的每一层的计算复杂度为O(n×|D|)。所以总的计算复杂度为O(n×|D|×log|D|)。

8.6

朴素贝叶斯分类之所以被称为是“朴素”的是因为它的前提假设是类条件独立性。也就是说,一个属性值在给定类上的影响独立于其他属性的值。做此假定是为了简化计算,所以在此意义下认为它是“朴素”的。朴素贝叶斯分类的主要思想是通过贝叶斯定理求后验概率的方法最大化概率值P(X/Ci)P(Ci)(i是类标号)来对数据进行划分。一般地:

◆假定有m个类:C1,C2,...,Cm,给定一系列未知类标号的数据元组,每个元组用一个n维属性向量表示:X=(x1,x2,...,xn)(其中xi表示元组在属性Ai上的属性值)。通过贝叶斯定理,朴素贝叶斯分类器可以计算每一个类在给定某个元组X条件下的后验概率,最终把对应最大后验概率的类的类标号指派给元组X。所以,我们需要最大化,P(Ci/X)=P(X/Ci)P(Ci)/P(X)。由于P(X)对所有类为常数,所以只需要最大化P(X/Ci)P(Ci)。如果类的先验概率未知,则通常假定这些类是等概率的,即P(C1)=P(C2)=......=P(Cm),并据此对P(X/Ci)最大化。类的先验概率可以用P(Ci)=Si/S估计,其中Si是类Ci所包含的训练元组数,S是所有训练元组的总数。

◆为了降低计算P(X/Ci)的复杂性,做了类条件独立的朴素假定。给定元组的类标号,假定属性值有条件地相互独立(即属性之间不存在依赖关系)。

——如果Ak是分类属性,则P(xk/Ci)是属性Ak的值为xk的Ci类的元组数除以Ci类的元组总数。

——如果Ak是连续属性,则P(xk/Ci)可以通过高斯分布函数进行计算。

8.7

(a)基本决策树算法可以做如下修改:

◆count属性提供的是某一类元组(如department="sales",status="senior",age=

"31...35",salary="46K...50k"的元组)的计数。因此通过count属性值(即计数信息)可以计算信息增益、基尼指数等属性选择度量,从而确定给定结点上的分裂属性。

◆通过考虑count属性,确定元组中最一般地类。

(b)构造的决策树如下:

(salary=26K...30K:junior

=31K...35K:junior

=36K...40K:senior

=46K...45K:junior

=46K...50K(department=secretary:junior

=sales:senior

=systems:junior

=marketing:senior)

=66K...70K:senior)

(c)朴素贝叶斯分类的结果是“junior”。

8.11


8.12




8.14


8.16

处理类不平衡问题的方法有(1)过抽样(2)欠抽样(3)阈值移动(4)组合技术

过抽样:对正元组重复采样,使得结果训练集包含相同个数的正元组和负元组。

欠抽样:减少负元组的数量。它随机地从多数(负)类中删除元组,直到正元组和负元组的数量相等。

阈值移动:它用于对给定输入元组返回一个连续值的分类器。该方法不是操控训练元组,而是基于输出值返回分类决策。最简单的是,对于某个阈值t,满足f(X)>=t的元组X被视为正的,而其它元组被看做负的。所以,阈值移动方法移动阈值t,使得稀有类的元组容易分类(因而,降低了代价高的假阴性出现的机会)。

组合方法:采用组合分类的方法,提高分类准确性。组成组合分类器的个体分类器可以使用上面介绍的方法,如过抽样和阈值移动。

信用卡欺诈检测是典型的类不平衡问题。在设计分类器时可以考虑:采用过抽样与阈值移动相结合的方法;针对单一分类器的局限性,可以引入多分类器融合的思想;与Adaboost的学习方法相结合进行学习;采用多样化的评价指标对分类结果进行评价。st;W�8Ic�

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,794评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,050评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,587评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,861评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,901评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,898评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,832评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,617评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,077评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,349评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,483评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,199评论 5 341
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,824评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,442评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,632评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,474评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,393评论 2 352

推荐阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,649评论 18 139
  • 单选题 1. 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(A) A...
    山的那边是什么_阅读 33,547评论 2 59
  • RSHandbook笔记P1C1:推荐系统中的数据挖掘方法 标签: 推荐系统HandBook笔记 由于简书不支持l...
    littlekid阅读 1,233评论 0 5
  • 机器学习 经验 数据 数据中产生模型model 的算法 学习算法 learning algorithm 数据集 d...
    时待吾阅读 3,974评论 0 3
  • 石家庄机构会,连夜参加,第二天全程站回来四个小时,导致脚肿啦!但是这次的会议参加让我重新认识啦纵生国际 重新认清目...
    4d4007053eb1阅读 238评论 0 0