GBDT和XGboost本质上都是前向分布求和算法,如果是回归问题,那么loss常用的是平方差,如果是分类问题,loss常用的是最大似然估计或者交叉熵,求和算法的含义是,整个预测函数可以通过多个若分类器组合而成,这里有几个要点需要关注,第一,在构建树的过程中,每一步分裂点的选择,目标都是促进使loss下降最大,第二,初始情况下,和函数只有一个初始的分类器本身,因此,找到使loss最小的预测值即为初始值,回归问题在使用平方差时,该值即为均值,分类问题使用交叉熵作为loss时,初始值为概率的大的类别对应的概率值,第三,当一棵树构建完成时,叶子节点的值即为该棵树对应函数的输出,可通过分别对每个叶子节点对应的特征空间求loss的最小值获取,第四,每棵树采用拟合梯度的方式进行生长的原因是,整个分类器是通过不断添加弱分类器求得的,每个弱分类器由于拟合的是梯度,因此加上原来的预测函数即相当于使用梯度下降,不断逼近loss极小值,
gbdt xgboost的一点思考
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。