数据转换

1.Z-Score标准化


image.png

Z-Score标准化后的数据平均值为0,方差为1.
对应的api:
(1)scipy.stats.zscore
(2) sklearn.preprocessing.StandardScaler()

2.min-max标准化
将数值缩放到0-1之间


image.png

对应的api:
sklearn.preprocessing.MinMaxScaler()

3.独热编码,one-hot-encoding
将不连续存在的状态,如电路分为正常,机械故障,电路故障,分别用0表示正常,1代表机械故障,2代表电路故障。但是机器学习认为2代表电路故障比1代表机械故障更‘大’,从而影响分析结果。


image.png

方法:pd.get_dummies()

4.数据离散化
1-10 岁为少儿,11-20 岁为少年,21-30 岁为青年等,这就可以被看作是数据离散化的过程。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容