数据预处理在众多深度学习算法中都起着重要作用,实际上,对数据进行适当处理后,很多算法能够发挥最佳效果。然而面对各种各样的数据,很多时候我们不知道怎么样才能针对性进行处理。本文介绍了Python下的机器学习工具scikit-learn。其中,“sklearn.preprocessing”模块提供了几种常见的函数和转换类,把原始的特征向量变得更适合估计器使用。
一、标准化,即减去平均值再用方差调整
在scikit-learn中,数据的标准化是很多机器学习估计器的常见要求;如果单个特征看起来不符合标准正态分布(平均值为0,方差为1)的话,数据之后可能会有很差的表现。
实际上我们通常忽略分布的具体形态,数据转换仅指: 减去每个特征的平均值,再除以他们的标准差。
例如,学习算法中目标函数的很多成分都假设,所有的特征都是围绕着0的,并且拥有相同算数级别的方差(比如SVM中的RBF核,以及线性模型中的l1,l2正则化)。如果一个特征的方差级别高于其他的特征,它会在目标函数中占据主导地位,并使得估计器不能按照预期很好地从其他特征中学习。
scale函数就提供了一个快速且简便的方法,对一个数组型数据执行这个操作:
调整后的数据平均值为0,方差为1:
preprocessing模块还提供了一个类"StandardScaler",它能计算训练集的平均值和标准差,以便之后对测试集进行相同的转换。因此,这个类适合用于sklearn.pipeline.Pipeline的前几个步骤:
这个scaler之后能对新的数据进行,跟先前对训练集一样的操作:
此外,也可以通过在创建StandardScaler时增加with_mean=False或者with_std=False语句,来阻止集中化或缩放比例。
1、把特征缩放到一个范围内
另一个标准化的操作,是把特征缩放到一个最小值与最大值之间(通常是0到1),或者是把每个特征的最大绝对值变到1。这分别可以通过MinMaxScaler或者MaxAbsScaler实现。
使用这种转换方式是为了增加强健性,来解决特征的标准差非常小的问题,以及在稀疏数据中保留0元素。
以下是一个把数据矩阵缩放到[0,1]范围内的一个例子:
相同的转换器可以用到新的测试集上:相同的缩放、平移操作会与之前对训练数据的操作保持一致:
我们也可以找出从训练数据中学到的转换的具体特性:
如果MinMaxScaler被给予一个明确的feature_range=(min,max),完整的公式是:
MaxAbsScaler的功能很类似,但是它把训练数据缩放到了[-1,1]范围内。这对已经围绕着0的数据或者稀疏数据来说是很有意义的。
这里用了这个scaler把之前例子的数据进行了转换:
与scale一样,这个模块也提供了比较简便的函数minmax_scale以及maxabs_scale,如果你不想创建一个对象。
2、转换稀疏数据
把稀疏数据集中化会破坏数据中的稀疏性结构,因此不是一个理想的做法。但是,对稀疏的输入转换测度是有道理的,特别是当特征具有不同的测度的时候。
MaxAbsScaler以及maxabs_scale是特别为转换稀疏数据设计的,并且我们建议使用他们。然而,scale和StandardScaler可以接受scipy.sparse矩阵作为输入,只要在创建时说明with_mean=False。否则会产生ValueError,因为默认的集中化会破坏稀疏性,并且会分配过多的内存从而导致运行崩溃。RobustScaler不能用于稀疏输入,但你可以对稀疏输入使用transform方法。
注意,scalers同时接受Compressed Sparse Rows以及Compressed Sparse Columns形式。其他类型的稀疏输入会被转换为Compressed Sparse Rows的形式。为了避免不必要的内存复制,建议选择CSR或者CSC的表达形式。
最后,如果集中化后的数据预期非常小,使用toarray方法把稀疏输入转换为数组是另一个选择。
3、转换具有异常值的数据
如果你的数据有很多异常值,使用平均值和方差来进行转换可能表现不会很好。在这些情况下,你可以使用robust_scale以及RobustScaler。他们对数据的中心和范围采用更健壮的估计。
参考资料:关于集中化和缩放比例重要性更多的讨论:Should I normalize/standardize/resclae the data?