数据预处理方法

数据预处理在众多深度学习算法中都起着重要作用，实际上，对数据进行适当处理后，很多算法能够发挥最佳效果。然而面对各种各样的数据，很多时候我们不知道怎么样才能针对性进行处理。本文介绍了Python下的机器学习工具scikit-learn。其中，“sklearn.preprocessing”模块提供了几种常见的函数和转换类，把原始的特征向量变得更适合估计器使用。

一、标准化，即减去平均值再用方差调整

在scikit-learn中，数据的标准化是很多机器学习估计器的常见要求；如果单个特征看起来不符合标准正态分布（平均值为0，方差为1）的话，数据之后可能会有很差的表现。

实际上我们通常忽略分布的具体形态，数据转换仅指: 减去每个特征的平均值，再除以他们的标准差。

例如，学习算法中目标函数的很多成分都假设，所有的特征都是围绕着0的，并且拥有相同算数级别的方差（比如SVM中的RBF核，以及线性模型中的l1,l2正则化）。如果一个特征的方差级别高于其他的特征，它会在目标函数中占据主导地位，并使得估计器不能按照预期很好地从其他特征中学习。

scale函数就提供了一个快速且简便的方法，对一个数组型数据执行这个操作：

调整后的数据平均值为0，方差为1：

preprocessing模块还提供了一个类"StandardScaler"，它能计算训练集的平均值和标准差，以便之后对测试集进行相同的转换。因此，这个类适合用于sklearn.pipeline.Pipeline的前几个步骤：

这个scaler之后能对新的数据进行，跟先前对训练集一样的操作：

此外，也可以通过在创建StandardScaler时增加with_mean=False或者with_std=False语句，来阻止集中化或缩放比例。

1、把特征缩放到一个范围内

另一个标准化的操作，是把特征缩放到一个最小值与最大值之间（通常是0到1），或者是把每个特征的最大绝对值变到1。这分别可以通过MinMaxScaler或者MaxAbsScaler实现。

使用这种转换方式是为了增加强健性，来解决特征的标准差非常小的问题，以及在稀疏数据中保留0元素。

以下是一个把数据矩阵缩放到[0,1]范围内的一个例子：

相同的转换器可以用到新的测试集上：相同的缩放、平移操作会与之前对训练数据的操作保持一致：

我们也可以找出从训练数据中学到的转换的具体特性：

如果MinMaxScaler被给予一个明确的feature_range=(min,max)，完整的公式是：

MaxAbsScaler的功能很类似，但是它把训练数据缩放到了[-1,1]范围内。这对已经围绕着0的数据或者稀疏数据来说是很有意义的。

这里用了这个scaler把之前例子的数据进行了转换：

与scale一样，这个模块也提供了比较简便的函数minmax_scale以及maxabs_scale，如果你不想创建一个对象。

2、转换稀疏数据

把稀疏数据集中化会破坏数据中的稀疏性结构，因此不是一个理想的做法。但是，对稀疏的输入转换测度是有道理的，特别是当特征具有不同的测度的时候。

MaxAbsScaler以及maxabs_scale是特别为转换稀疏数据设计的，并且我们建议使用他们。然而，scale和StandardScaler可以接受scipy.sparse矩阵作为输入，只要在创建时说明with_mean=False。否则会产生ValueError，因为默认的集中化会破坏稀疏性，并且会分配过多的内存从而导致运行崩溃。RobustScaler不能用于稀疏输入，但你可以对稀疏输入使用transform方法。

注意，scalers同时接受Compressed Sparse Rows以及Compressed Sparse Columns形式。其他类型的稀疏输入会被转换为Compressed Sparse Rows的形式。为了避免不必要的内存复制，建议选择CSR或者CSC的表达形式。

最后，如果集中化后的数据预期非常小，使用toarray方法把稀疏输入转换为数组是另一个选择。

3、转换具有异常值的数据

如果你的数据有很多异常值，使用平均值和方差来进行转换可能表现不会很好。在这些情况下，你可以使用robust_scale以及RobustScaler。他们对数据的中心和范围采用更健壮的估计。

参考资料：关于集中化和缩放比例重要性更多的讨论：Should I normalize/standardize/resclae the data?

数据预处理方法

一、标准化，即减去平均值再用方差调整

1、把特征缩放到一个范围内

2、转换稀疏数据

3、转换具有异常值的数据

推荐阅读更多精彩内容