熵
熵:表示数据的内部混乱程度。熵越大越混乱,反之。
‘基尼’系数和熵变化差不多。
决策树
信息增益:
原来有一个熵值A,选择一个特征的信息熵B,两者相减
信息增益 G:
G = A - B
那个信息增益值最大,说明选取这个特征比较好。
ID3 :信息增益
例如:
另一个特征的计算是一样的。
缺点:
添加一列编号的特征值1、2、3、4、5、6.。。。。。。。
信息增益到此为止啦。
《机器学习实战》笔记之三——决策树ID3算法
C4.5 信息增益率
信息增益率 = 信息增益/特征自身的熵值
引入了一个评价函数:
H(t) 表示当前叶子结点的熵值或者Gini系数,
Nt 表示当前叶子结点有几个样本
对于连续值怎么分割
损失处理
为甚要得到一个最矮的决策树,决策树太高,意味着分支太多,会有过拟合的风险。
预剪枝:在决策树的过程中,提前停止。比如限制深度、当前叶子结点的样本数小于50个提前停止。
后剪枝:决策树构建好啦,然后才开始剪枝。
Tleaf表示叶子结点数
随机森林
对于分类来说:求众数也可以。
对于回归任务来说:构造了多棵决策树,首先一片决策树,使用这些决策树同时处理一个任务,然后结果统一处理得出来的。
随机森林;
随机啥意思,有双重随机性的
第一,选择60%样本数据(又放回的哈)。
第二,关于特征的,比如有8个特征,选择其中6个(这个没有放回的哈)。
关于参数
画图的库seaborn
2.best 拿所有的遍历找最好的,random 是随机选取几个特征。
3.候选特征比较多的时候,指定一个特征。
4.指定深度。
5.当前这个节点样本数比较小的时候,停止切分。
7.用的比较少,通常不用。
8.限制叶子结点数。
9.类别
最大熵
“最大熵”这个名词听起来很玄奥,但是它的原理很简单,我们每天都在用。说白啦,就是保留全部的不确定性,将风险降到最小。
最大熵原理指出,对于一个随机时间的概率分布进行预测时,我们的预测应当满足全部已知的条件,而对未知的情况不要做任何主观假设。
总结:
最大熵模型可以将各种信息整合到一个统一的模型中。它有很多良好的特性:从形式上看,它非常优美:从效果上看,它是唯一一种既能满足各个信息源的限制条件,又能保证平滑行的模型。由于最大熵模型具有这些良好的特性,因此应用范围十分广泛。但是,最大熵模型计算量巨大,在工程上实现方法的好坏决定了模型的实用与否。