XGBoost是什么?
XGBoost本身是一个监督模型,本质上就是一堆CART树。
XGBoost的一些优势
1.正则化
标准GBM的实现没有像XGBoost这样的正则化步骤。正则化对减少过拟合也是有帮助的。 实际上,XGBoost以“正则化提升(regularized boosting)”技术而闻名。
2.并行处理
XGBoost可以实现并行处理,相比GBM有了速度的飞跃。 不过,众所周知,Boosting算法是顺序处理的,它怎么可能并行呢?每一课树的构造都依赖于前一棵树,那具体是什么让我们能用多核处理器去构造一个树呢?我希望你理解了这句话的意思。 XGBoost 也支持Hadoop实现。
3.高度的灵活性
XGBoost 允许用户定义自定义优化目标和评价标准 它对模型增加了一个全新的维度,所以我们的处理不会受到任何限制。
4.缺失值的处理
XGBoost内置处理缺失值的规则。 用户需要提供一个和其它样本不同的值,然后把它作为一个参数传进去,以此来作为缺失值的取值。XGBoost在不同节点遇到缺失值时采用不同的处理方法,并且会学习未来遇到缺失值时的处理方法。
5.剪枝
XGBoost会一直分裂到指定的最大深度(max_depth),然后回过头来剪枝。如果某个节点之后不再有正值,它会去除这个分裂。 这种做法的优点,当一个负损失(如-2)后面有个正损失(如+10)的时候,就显现出来了。GBM会在-2处停下来,因为它遇到了一个负值。但是XGBoost会继续分裂,然后发现这两个分裂综合起来会得到+8,因此会保留这两个分裂。
6.内置交叉验证
XGBoost允许在每一轮boosting迭代中使用交叉验证。因此,可以方便地获得最优boosting迭代次数。 而GBM使用网格搜索,只能检测有限个值。
7.在已有模型的基础上继续
GBoost可以在上一轮的结果上继续训练。这个特性在某些特定的应用上是一个巨大的优势。 sklearn中的GBM的实现也有这个功能,两种算法在这一点上是一致的。
XGBboost中的参数调整
XGBoost中的参数分为三类
1.通用参数
2.boost参数
3.学习目标参数
通用参数
-
booster:用于选择每次迭代的模型
1.gbtree:树形结构
2.gbliner:线性结构
-
slient:主要用于控制输出,当参数设为1时,模型不输出任何内容,这里我们默认为0
-
nthread:主要用于多线程控制,应该输入系统的核数
boost参数
-
eta 【默认0.3】
通过减少每一步的权重,可以提高模型的鲁棒性。 典型值为0.01-0.2。
-
min_child_weight 【默认1】
最小样本权重的和,用来避免过拟合的问题,这个参数需要用CV函数去调整
-
max_depth 【默认6】
树的最大深度。 这个参数需要使用CV来调整
-
max_leaf_nodes
树上最大的节点或叶子的数量。 可以替代max_depth的作用
-
gamma
Gamma指定了节点分裂所需的最小损失函数下降值。 这个参数的值越大,算法越保守。这个参数的值和损失函数息息相关,所以是需要调整的。
-
max_delta_step【默认0】
这参数限制每棵树权重改变的最大步长。如果这个参数的值为0,那就意味着没有约束。如果它被赋予了某个正值,那么它会让这个算法更加保守。 通常,这个参数不需要设置。但是当各类别的样本十分不平衡时,它对逻辑回归是很有帮助的。 这个参数一般用不到,但是你可以挖掘出来它更多的用处。
-
subsample【默认1】
这个参数控制对于每棵树,随机采样的比例。 减小这个参数的值,算法会更加保守,避免过拟合。但是,如果这个值设置得过小,它可能会导致欠拟合。 典型值:0.5-1
-
colsample_bytree【默认1】
用来控制每棵随机采样的列数的占比(每一列是一个特征)。 典型值:0.5-1
-
colsample_bylevel【默认1】
用来控制树的每一级的每一次分裂,对列数的采样的占比。subsample参数和colsample_bytree参数可以起到相同的作用。
-
lambda【默认1】
这个参数是用来控制XGBoost的正则化部分的。
-
alpha【默认1】
权重的L1正则化项。(和Lasso regression类似)。 可以应用在很高维度的情况下,使得算法的速度更快。
-
scale_pos_weight【默认1】
在各类别样本十分不平衡时,把这个参数设定为一个正值,可以使算法更快收敛。
学习目标参数
-
objective【默认reg:linear】
这个参数定义需要被最小化的损失函数。最常用的值有:
binary:logistic 二分类的逻辑回归,返回预测的概率(不是类别)。 multi:softmax 使用softmax的多分类器,返回预测的类别(不是概率)。
在这种情况下,你还需要多设一个参数:num_class(类别数目)。 multi:softprob 和multi:softmax参数一样,但是返回的是每个数据属于各个类别的概率。
-
eval_metric【默认值取决于objective参数的取值】
对于有效数据的度量方法。 对于回归问题,默认值是rmse,对于分类问题,默认值是error。 典型值有:
rmse 均方根误差(∑Ni=1?2N??????√) mae 平均绝对误差(∑Ni=1|?|N) logloss 负对数似然函数值 error 二分类错误率(阈值为0.5) merror 多分类错误率 mlogloss 多分类logloss损失函数 auc 曲线下面积
-
seed【默认0】
随机数的种子 设置它可以复现随机数据的结果,也可以用于调整参数。