这篇LR+GBDT的文章https://www.jianshu.com/p/4680ac3503d8其实没怎么讲LR,全都是在讲GBDT怎么做特征工程
其实就是构造多棵树,然后把叶子节点作为特征
为什么要用多棵树而不是单颗树:多棵树学习能力更强
为什么要用GBDT而不是RF:GBDT前面的树是划分了多数样本,用的也是划分多数样本有区分度的特征;后面剩的是残差还比较大没学好的样本,再针对这些样本去划分,得到的特征也是更精细的
ID类特征怎么处理:GBDT对非ID类特征好处理,也容易得到叶子,对ID类特征的处理文中只是说单独建树,没讲清楚,参考了其他blog,比如:https://blog.csdn.net/weixin_38526306/article/details/88895994就说GBDT做one-hot没用,因为一是切开也约等于没切,另一个是切开就算两边有区分但是也不一定是最优切法,解法是用LightGBM来切,或者embedding,或者做一个label的啥啥,感觉还是没讲太明白
找了个带详细流程的:https://blog.csdn.net/anshuai_aw1/article/details/83275299?utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7ECTRLIST%7Edefault-1.no_search_link&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7ECTRLIST%7Edefault-1.no_search_link(也没仔细看)