学习决策树

1决策树是什么?

百度百科:

决策树是一种数据挖掘分类算法、是直观运用概率分析的一种图解法、是一个预测模型。

由于这种决策分支画成图形很像一棵树的枝干,故称决策树。

我的理解就是:一种寻找最优方案的画图法。

前提是要知道所有可能的方案,以及每种方案的收益与发生概率。这样才能算出每种方案的理论期望值,对比各个方案,然后找到最优方案。


为了学习决策树我又看了一篇文献:《决策树(哈佛大学笔记)》

这个比较易懂,只是字多了点。

她举了个例子

说是要卖椅子,

当前情况是:每年销售额 20万--45万(这个数据之后并没有用)

这时有一个投资新设备的机会

投资新设备成本是30万

投资之后

每把椅子获利100元

市场好:能卖出8000个 共获利80万

市场不好:能卖出1000个,获利10万

用概率树来表示:




然后指出,估计市场好的几率是0.4,相反,不景气的几率为0.6



那么 投资的预期平均现金流为:



这时,增加了一些新元素。

在市场好的时候

能产品能上电视销售额将会达到:320万(概率0.1)

上不了电视则只有:80万(概率0.9)


市场不好的时候

上电视销售额为40万(概率为0.01%)

上不了电视则只有:10万(概率0.99)


现在,概率树为:



然后4种情况各自的平均期望值为:


最后,4个期望值的和  减去投资成本,得到这个投资机会的价值$477,800 - $300,000 =$177,800


现在,老板需要一家调查机构来告诉他们市场是好是坏,不过需要花50000元来请他们调查。

老板不知道值不值得花这50K。

从这儿开始,作者开始教我们如何画决策树:

1 列出备选方案

从第一个决定开始,这里的话,就是决定到底要不要花钱请人调查:

成本:调查为50,不调查为0



接着,从顶端的分支开始画。如果调查,会发生哪些情况。



因为调查的结果不是老板能掌控的,具有不确定性,因此用圆圈(机会节点)来标记。


继续,在每一个调查结果中,老板会决定购买设备,或者放弃购买:


市场景气的时候,花费30K,将会收到80K收入,不投资,则为0;

市场不景气的时候,花费30K,将会收到10K收入,不头则,则为0;


现在,调查部分的决策树画完了,下面补全不进行调查部分的决策树:


老板不打算花钱做调查,因此老板是在不确定市场景气与否的前提下做出决定,那么就仅仅是:

投资OR不投资。

投资的话,分市场景气和不景气两种,分别收入80K,10K;

不投资的话,也分市场景气和不景气两种(严谨,不能因为0,就可以省略),不过收入都为0;


2  量化不确定性

好,现在此刻我们已经把所有备选方案列好了,下面,我们要量化决策树中的每个分支的不确定性。


首先确定概率,在圆圈(机会节点)的后面的分支上标注概率:


调查报告显示,市场景气的概率是0.4,不景气的概率是0.6,所以在相应的分支上标注好概率,同时呢,为了方便查询,我们在重要节点上分别标注:A、B、C、D。


3 指定目标

一般来说,目标就是选择最优的方案,而最有的方案通常都是做出货币价值最高的决策。

4解决决策树

从结果节点开始逆向操作:



在决策节点A,老板需要决定是花50K进行投资,还是不投资。

投资的话 80K-30K=50K,将会产生50K 的现金流,不投资则为0,所以投资,是最优决策:


在决策节点B,对比权衡投资于不投资的利弊,老板选择不投资:

因为:收入的10K-投资成本的30K=-20K,而不投资为0,因此老板在B这个决策节点选择不投资。


接着,老板考虑在决策点C该做什么决定。因为她不知道自己决策的后果,所以,他需要对比决策点C后面的每个结果分支,并选择最预期货币价值最好的结果:

投资:预期货币价值  0.40x800,000 + 0.60x100,000 - 30 = 8万

不投资: 预期货币价值  0.40 x 0 + 0 x 0 - 0 = 0

因为  投资(预期货币价值)>不投资(预期货币价值),所以她会选择投资。


现在,我们知道老板做出了A\B\C三个决策,于是我们可以缩小决策树:


现在做最后一个决策,D:


对比两条路径的预期货币价值做出决定。

第一条--调查的路径:

调查之后的预期现金流为:市场景气收益的50万×市场景气的概率0.4+市场不景气的收益0×市场不景气的概率0.6=20万,再减去调查成本5万,最后等于15万。

调查后的预期现金流为15万。


现在看第二条路径---不调查:


不调查产生的预期货币价值为8万


15>8,因此老板最终会做出花钱请人调查,并且在市场景气的时候进行投资这条决策。


总结:

分三步建立决策树:

1列出备选方案

2量化不确定性

3 指定目标


最后解决决策树:

1从结果开始,计算每个决策节点后面的结果的预期货币价值,做出最优的决策

over。


之后我又看了一篇文章---《白话一下什么是决策树模型》

http://www.itongji.cn/article/111429252013.html

开头,作者以CS为例,记录了玩家的4条数据

得出,条件的不同,会导致行为的不同这个结论。

然后作者将数据分为两块:

1是X,代表条件

2是Y,代表结果

在这个例子里,条件和结果都不只一个

条件是{武器类型、子弹数量、血量}

结果是{战斗、逃避}

然后作者说道建立决策树的目的是找到最合适的映射关系:

Y=F(X)

在这里就是说,武器类型、子弹数量,以及血量之间的关系将会决定结果,决定是战斗还是逃避。

同时作者还说,条件有优先级高下之分。对结果的影响也就有高矮之分。

接着,作者引入了信息论中的”熵“这个概念,它的作用是计算信息的混乱程度。

说着,作者将各个条件中的元素都求了个熵出来,

这还没完,要想得到条件的优先级,还要计算一个叫做信息增量的东西,它可以代表优先级,值与优先级成正比。

利用熵来求信息增量的公式:

Gain(Sample,Action) = E(sample) - sum(|Sample(v)|/Sample * E(Sample(v)))

over,这就是这篇文章的主要内容。

问题1:

虽然我知道公式是:E = sum(-p(I)*log(p(I))),I=1:N,N为多少种结果

但是我无法理解这个式子是怎么写出来的:

E(机枪) = -(1/2)Log2(1/2) - (1/2)Log(1/2) = 0.5 + 0.5 = 1

问题2:

这个我也不懂怎么写出来的。

“Gain(武器类型) = E(S) - (2/4)*E(机枪) - (2/4)*E(小刀) = 1 - (2/4)*1 - (2/4)*1 = 0“这个式子的理解。

公式:

Gain(Sample,Action) = E(sample) - sum(|Sample(v)|/Sample * E(Sample(v)))

至此,对这篇文章的理解结束。


2它什么样?


决策树就是由:方块(决策节点)、圆圈(机会阶段)、三角(结果)和分支线所组成。

用来寻找具价值方案的一种画图画。

使用决策树有4个步骤:

1列出所有可能的备选方案,画出每种方案会导致的结果

2量化不确定性,也就是确定每个方案的概率

3明确你的目标,一般来说就是追求最优货币价值的决策

4从结果逆向操作,计算出每种结果的期望值,然后对比各个结果的期望值,选出最优方案。


3它有什么用?


做决策之前,使用它,可以对比出每种方案的期望值,以此来找到最优方案。


4我如何利用它?

我一切量化的决策都可以使用它。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,922评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,591评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,546评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,467评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,553评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,580评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,588评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,334评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,780评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,092评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,270评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,925评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,573评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,194评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,437评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,154评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,127评论 2 352

推荐阅读更多精彩内容