非递归建树
节点的存放
终止条件
树的节点数
树的深度
没有适合分割的节点
特征值排序
在对每个节点进行分割的时候,首先需要遍历所有的特征,然后对每个样本的特征的值进行枚举计算。(CART)
在对单个特征量进行枚举取值之前,我们可以先将该特征量的所有取值进行排序,然后再进行排序。
优点
避免计算重复的value值
方便更佳分割值的确定
减少信息的重复计算
多线程/MPI并行化的实现
通过MPI实现对GBDT的并行化,最主要的步骤是在建树的过程中,由于每个特征值计算最佳分割值是相互独立的,故可以对特征进行平分,再同时进行计算。
MPI并行化的实现
主线程
其他线程