深度学习为什么需要suffle,xgb为什么不需要shuffle?

因为深度学习的优化方法是随机梯度下降,每次只需要考虑一个batch的数据,也就是每次的“视野”只能看到这一批数据,而不是全局的数据。是一种“流式学习”。原始数据因为某中原因分布并不平均,会出现连续的正负样本,或者数据分布集中的情况,这样的话会限制梯度优化方向的可选择性,导致收敛点选择空间严重变少。不容易收敛到最优值。

而xgb模型训练建树的过程最重要的步骤是分裂点的选择。考虑的数据是整个训练集。xgb的视野是整个数据集。所以不需要shufle。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容