为什么要进行数据分箱?(转)

一般在建立分类模型时,需要对连续变量离散化,特征离散化后,模型会更稳定,降低了模型过拟合的风险。比如在建立申请评分卡模型时用logsitic作为基模型就需要对连续变量进行离散化,离散化通常采用分箱法。

分箱的重要性及其优势

离散特征的增加和减少都很容易,易于模型的快速迭代;

稀疏向量内积乘法运算速度快,计算结果方便存储,容易扩展;

离散化后的特征对异常数据有很强的鲁棒性:比如一个特征是年龄>30是1,否则0。如果特征没有离散化,一个异常数据“年龄300岁”会给模型造成很大的干扰;

逻辑回归属于广义线性模型,表达能力受限;单变量离散化为N个后,每个变量有单独的权重,相当于为模型引入了非线性,能够提升模型表达能力,加大拟合;

离散化后可以进行特征交叉,由M+N个变量变为M*N个变量,进一步引入非线性,提升表达能力;

特征离散化后,模型会更稳定,比如如果对用户年龄离散化,20-30作为一个区间,不会因为一个用户年龄长了一岁就变成一个完全不同的人。当然处于区间相邻处的样本会刚好相反,所以怎么划分区间是门学问;

特征离散化以后,起到了简化了逻辑回归模型的作用,降低了模型过拟合的风险。

可以将缺失作为独立的一类带入模型。

将所有变量变换到相似的尺度上。


原文链接:https://blog.csdn.net/pylady/article/details/78882220

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • 机器学习是做NLP和计算机视觉这类应用算法的基础,虽然现在深度学习模型大行其道,但是懂一些传统算法的原理和它们之间...
    在河之简阅读 20,938评论 4 65
  • 乞丐抖帝,悲歌唱与何人听 文/风若痕 刷遍抖音的乞丐抖帝火了!但其本人究竟是谁?估计这是目前8亿抖音用户都想知道的...
    轻愁风若痕阅读 3,459评论 1 5
  • 朋友阿文,最近特别不开心。 他父亲生前,有一套大房子,前段时间突然病发去世后,他与大哥阿东就因为房子“干上了”。不...
    怡记阅读 984评论 0 2
  • 卡曼尼(Carmenere):这个品种曾在波尔多广泛种植,最初发源于法国波尔多,十九世纪中期由于葡萄根瘤蚜虫病害在...
    酒壹扒阅读 4,237评论 0 0
  • 敬爱的李老师,智慧的马教授,亲爱的家人们大家晚上好,我是华夏炜烨有限公司的刘雷雷,日精进第16天,跟大家分享今天的...
    刘雷雷阅读 153评论 0 0

友情链接更多精彩内容