PYTHON-分箱

分箱可以将连续变量离散化,减小异常值对模型的影响

数据准备

Age = [0,10,20,25,31,35,40,62,90]

pd.qcut() 使每一份的元素个数相同

#将Age分为三个箱子,每个箱子有3个元素
pd.qcut(data['Age'],3,labels=['Teen',‘Middle-age’,'Elder'])

<<[Teen, Teen, Teen, Middle-age, Middle-age, Middle-age, Elder, Elder, Elder]

pd.cut 使每一份的宽度相同

#将Age分为三个箱子,箱子范围分别是0-30,30-60,60-90
pd.cut(Age,3,labels=['Teen',‘Middle-age’,'Elder'])

<<<[Teen, Teen, Teen, Teen, Middle-age, Middle-age, Middle-age, Elder, Elder]

给Age指定区间和标签

pd.cut(ages, [0,5,20,30,50,100], labels=[u"婴儿",u"青年",u"中年",u"壮年",u"老年"])

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容