Lesson 26 虚拟变量
虚拟变量又叫哑变量和离散特征编码,用来表示分类变量,非数量因素可能产生的影响
- 离散特征的取值之间有大小意义, eg xl ,l, m, s
pandas.Series.map(dict)
dict是映射的字典
2.离散特征的取值之间没有大小意义
pandas.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None, drop_first=False)
data: 要处理的dataframe
prefix: 列名的前缀,在多个列有相同的离散项时使用
prefix_sep: 前缀和离散值之间的分隔符,默认为下划线
dummy_na: 是否把NA值作为一个离散值进行处理,默认不处理
columns: 要处理的列名,如果不指定该列,那么默认处理所有列
drop_first: 是否从备选项中删第一个
Lesson 27 基本统计
基本统计分析又叫做描述性统计分析,用来概括十五整体状况以及事物间的联系(食物基本特征),以发现其内在的规律的统计分析方法
常用方法:
计数: size
求和: sum
平均值: mean
方差: var
标准差: std
累计求和: cumsum
最小值所在位置:argmin
最大值所在位置:argmax
分位函数:quantile(0.3)
Lesson 28 分组分析
根据分组字段,将分析对象划分成不同的部分,已进行对比分析各组之间的差异性的分析方法
常用统计指标:计数,求和,平均值
定性分组
定量分组
分组统计函数:
groupby(by=[分组列1,分组列2,...])
[统计列1,统计列2,...]
.agg({统计列别名1:统计函数1,统计列别名2:统计函数2})
Attention: 当统计列名有多个时,统计列别名会自动变成: 统计列别名_统计列名
Lesson 29 分布分析
根据分析目的,讲数据(定量数据)进行等距或者不等距的分组,进行研究各组分布规律的一种分析方法
Step1: 定义各数值区段,例如“20岁以下”,“20到30岁”...
Step2: 进行数值分段处理:pandas.cut()
Step3: 按照已分区段,进行数据分组
data.groupby(by=[column_name])[column_name].agg({column_alias: function})