无量纲化:
常用的如下两种:
1、min-max标准化(Min-maxnormalization)
也叫离差标准化,是对原始数据的线性变换,使结果落到[0,1]区间,转换函数如下:

其中max为样本数据的最大值,min为样本数据的最小值。
2. z-score标准化
最常见的标准化方法就是Z标准化,也是SPSS中最为常用的标准化方法,spss默认的标准化方法就是z-score标准化。
也叫标准差标准化,这种方法给予原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。
经过处理的数据符合标准正态分布,即均值为0,标准差为1,其转化函数为:

缺失值处理:
常用的几种处理方法如下,根据不同的应用场景进行选择
1.直接删除带有缺失值的数据。
2.直接删除有大量缺失值的变量
3.对缺失值进行替换。
利用代表性的属性进行替换,比如众数、均值等,或者人为定义一个数据去代替缺失值的情况。
4.对缺失值进行赋值
赋值的方法有回归模型、决策树模型、贝叶斯定理等去预测缺失值的最近替代值,也就是把缺失数据所对应的变量当作目标变量,把其他的输入变量作为自变量,为每个需要进行缺失值赋值的字段分别建立预测模型。