决策树系列1:基础概念

背景音乐:贝加尔湖畔

1. 树模型

判断家里谁会玩游戏

先来看个例子:

家里5个人,我们来判断谁会玩游戏:
1)首先,根据年龄进行区分,大于15岁的就是不玩游戏的。
2)然后,根据性别进行区分,男的玩游戏,女的不玩游戏。

我是这么想的:
1)因为年龄大于15岁可以分割开60%的样本,分类的效果最好,所以我先选它作为最重要的特征。
2)然后在小于15岁的样本里,性别可以对剩余样本进行100%的分割,所以它是第二重要的特征。

决策树

很好,在这里,你已经构造出了一棵决策树了。树的叶子就是所有数据的归属,代表不能再分割下去了。树的根节点、中间的节点、树枝就是一些决策依据。我们既可以用决策树做分类也可以做回归

可以看出:

  • 决策树就是从根节点开始一步步走到叶子节点。
  • 所有的数据最终都会落到叶子节点。

下课铃声响了,但你眉头一皱,觉得事情并不简单:
因为上面的例子里,先按照性别切分,然后按照年龄进行切分,也是一样的结果!(很聪明嘛小火鸡!)
这里映射出另一个问题——当两棵树的效果相近时,如果选择出相对最好的决策树?
这就是模型评估,我们以后讲。



2. 树的组成

决策树由四个部分组成:

  1. 根节点:第一个选择点,也就是我们认为能最大分割样本的条件,如:age<15
  2. 非叶子节点:不是最终结果,中间条件,代表还需要继续走下去,如:is male?
  3. 分支:上述条件的结果,代表了走下去的方向,如 yes or no
  4. 叶子节点:分支结束,代表了某个最终的决策结果,如 play or not play

决策树的组成


3. 节点

双11刚过,想象一下你拿到一个快递包裹,你摇了摇感觉里面有两个东西,于是你嘶啦一声,把它拆了,你才发现!大的那个是给小明的,小的那个是给小王的(反正就没有你的)。

刚才的操作就是增加一个节点:

  • 原来的大快递包是一个叶子节点,里面包含了某类样本;
  • 你按某个依据(如大小)把这类样本分成两个部分;
  • 你判断大的那个是属于某个结果的,小的那个时属于小王的;

如下图所示,通过横竖一刀两刀三四刀(增加节点),把样本空间就这么给切割开了!


决策树效果与最大深度的关系

问题:节点越多越好吗?



4. 决策树的训练与测试

训练阶段

把训练集数据丢进去!从根节点开始,不断地循环进行特征选择和特征切分,从而构造出一棵决策树。

测试阶段

把测试集数据丢进去!根据构造出来的树模型从上到下去走一遍!


问题:构造决策树的时候,如何选择特征?选择好后,又如何做特征切分?



5.如何选择特征

一棵树,根部是最强壮的,然后越长枝条越细长。

决策树也一样,选择特征的时候,从根节点开始,每个节点都选择最好的特征,以此类推。

不难发现,构造决策树,用的是贪心算法,即每次都选择最好的情况来切分。


问题:什么才是最好的?



待续

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 222,183评论 6 516
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 94,850评论 3 399
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 168,766评论 0 361
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,854评论 1 299
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,871评论 6 398
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 52,457评论 1 311
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,999评论 3 422
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,914评论 0 277
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 46,465评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,543评论 3 342
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,675评论 1 353
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 36,354评论 5 351
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 42,029评论 3 335
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,514评论 0 25
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,616评论 1 274
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 49,091评论 3 378
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,685评论 2 360

推荐阅读更多精彩内容