python 分布分析

import numpy

import pandas

data = pandas.read_csv(

'D:\\PDA\\5.3\\data.csv'

)

aggResult = data.groupby(

by=['年龄']

)['年龄'].agg({

'人数': numpy.size

})

data.年龄.hist()

bins = [

min(data.年龄)-1, 20, 30, 40, max(data.年龄)+1

]

labels = [

'20岁以及以下', '21岁到30岁', '31岁到40岁', '41岁以上'

]

data['年龄分层'] = pandas.cut(

data.年龄,

bins,

labels=labels

)

pAggResult = round(

aggResult/aggResult.sum(),

2

)*100

pAggResult['人数'].map('{:,.2f}%'.format)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容