GBDT做特征工程

这篇LR+GBDT的文章https://www.jianshu.com/p/4680ac3503d8其实没怎么讲LR,全都是在讲GBDT怎么做特征工程

其实就是构造多棵树,然后把叶子节点作为特征

为什么要用多棵树而不是单颗树:多棵树学习能力更强

为什么要用GBDT而不是RF:GBDT前面的树是划分了多数样本,用的也是划分多数样本有区分度的特征;后面剩的是残差还比较大没学好的样本,再针对这些样本去划分,得到的特征也是更精细的

ID类特征怎么处理:GBDT对非ID类特征好处理,也容易得到叶子,对ID类特征的处理文中只是说单独建树,没讲清楚,参考了其他blog,比如:https://blog.csdn.net/weixin_38526306/article/details/88895994就说GBDT做one-hot没用,因为一是切开也约等于没切,另一个是切开就算两边有区分但是也不一定是最优切法,解法是用LightGBM来切,或者embedding,或者做一个label的啥啥,感觉还是没讲太明白

找了个带详细流程的:https://blog.csdn.net/anshuai_aw1/article/details/83275299?utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7ECTRLIST%7Edefault-1.no_search_link&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7ECTRLIST%7Edefault-1.no_search_link(也没仔细看)

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容