1、信息熵
只考虑离散情况
- 熵:度量变量不确定性,越确定熵越小,完全确定的事件熵为0
信息熵的定义:
$$ - 条件熵:
h(y | x) = h(x, y) - h(x) x与y的不确定性,减去x的不确定性得到当x确定时y的不确定性,即h(y | x) = 条件上公式
相对熵:
2、决策树算法
从根节点开始建立一个熵下降的树,叶子节点熵为0。同时有可能采用预剪枝,使得最后的熵不至于为0,导致在训练集上过拟合。
- ID3
- C4.5
- CART
前3个是分类的依据,若使用MSE作为依据则对应拟合。
3、随机森林与Bagging
bagging是有放回的重采样,重复m次得到m个分类器,最后根据这m个分类器投票决定类别。
重采样的样本规模和特征维度不一定要跟原始数据的一样,即可以存在一个采样率,按照一定比例随机选择出样本和特征。
进阶
(1)logistic的四种解释
(2)OOB问题
(3)不是很建议用强分类器做bagging
上图
(4)关于随机森林的投票机制,大部分场景中使用的是少数服从多数、加权少数服从多数、一票否决等机制。在一些场景中会用到先验知识,即贝叶斯投票机制,如电影评分,一个可行的方案是:
(6)RF计算样本相似度
(7)RF计算特征重要度
(8)RF用于异常值检测