登录注册写文章

树模型笔记

树模型笔记

决策树

特征分裂点选取方法：遍历所有value，以该value作为切分点，计算左右集合的MSE，选取最佳切分点，同时切分样本到下层节点
除了MSE之外也可以用信息增益（ID3算法)、信息增益比（C4.5）、基尼系数（CART）等方法进行衡量
使用贪心算法，不断扩展树的层数
某个叶节点预估值等于落到该叶结点的样本均值
CART回归树使用MES做loss，分类树使用GINI系数

随机森林

构建多个决策树，用多个弱分类器构成一个强分类器
训练单个决策树的样本随机抽取
决策树的特征随机抽取

提升树

构建若干棵树，依次拟合之前所有树的结果与目标的残差
树的生成方式与CART一致
损失函数为残差： $y - sum(f_i(x))$

GBDT（Gradient Boosting Decision Tree）

损失函数为负梯度（-1 * 残差的平方对c的导数）
对损失函数求导，每一步获取最小化的残差
以最小化的残差，生成下一课树

XGBoost

目标函数包含：loss function + 正则项
正则项包含：叶子节点数项 + 叶子权重值项（剪枝 + 防过拟合）
loss fuction与分裂准则挂钩（分裂前的loss减去分裂后左右节点各自的loss）

图片.png

gama的值决定了是否继续分裂
loss function:

图片.png

文章链接：
https://www.jianshu.com/p/ac1c12f3fba1

Bagging 与Boosting的方法差异

Bagging的弱模型互相独立
Boosting的弱模型互相依赖，后者的目标在于缩小前者的gap

最后编辑于：2022.05.06 22:33:28

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

集成树模型（Ensemble）
博客园：梯度提升树(GBDT)原理小结博客园：一步一步理解GB、GBDT、xgboost知乎：机器学习算法中GBD...
闫阿佳阅读 10,580评论 0赞 5
Machine Learning-决策树与集成学习
决策树与集成学习目录 ·简介 ·决策树 ·booststrap ·bagging ·boosting ·随机森林...
丁想阅读 5,272评论 1赞 4
一文通俗讲透树模型
前言决策树模型因为其特征预处理简单、易于集成学习、良好的拟合能力及解释性，是应用最广泛的机器学习模型之一。不同...
算法进阶阅读 9,692评论 1赞 8
树模型总结
树模型演变过程 Decision Tree -(Bagging)-> Random Forest -(Boost...
葡萄肉多阅读 9,311评论 0赞 6
AI基础知识总结
1 为什么要对特征做归一化特征归一化是将所有特征都统一到一个大致相同的数值区间内，通常为[0,1]。常用的特征归...
顾子豪阅读 11,753评论 2赞 22

赞1赞

赞赏

手机看全文