数据预处理的主要内容包括:数据清洗,数据集成,数据变换和数据/规约
原始数据会经常出现缺失的现象,常用的插补的方法,有均值/中位数/众数来插补,或者使用固定值/最近临插补/回归方法/插值法(拉格朗日插值,牛顿插值,Hermite插值,分段插值,样条插值)
数据集成往往会造成数据冗余。
简单函数变换是对原始数据进行某些数学函数变换,常用的变换包含平方,开方,取对数,差分运算等等。
简单的函数变换常用来将不具有正态分布的数据变换为具有正态分布的数据。
连续属性离散化的过程
在数据的取值范围内设定若干个离散的划分点,将取值范围划分为一些离散化的区间,最后用不同的符号或整数值代表落在每个子区间中的数据值。两个任务:确定分类数以及如何将连续性属性值映射到这些分类值
常用的离散化方法:等宽法,等频法,基于聚类的分析方法
代码4-3数据离散化
from sklearn.cluster import KMeans
kmodel=KMeans(n_clusters=k,n_jobs=4)
原代码
kmodel.fit(data.reshape((len(data),1))) 出现 NameError: name 'data_values' is not defined 改为
kmodel.fit(data.values.reshape((len(data),1)))
数值规约是指通过选择替代的、较小的数据来减少数据量,包括有参数方法和无参数方法两类,有参数方法是使用一个模型来评估数据,例如回归。无参数方法就是需要存放实际数据,例如直方图,聚类,抽样。