机器学习--数据预处理

一. 数据预处理:
将未加工数据转换成适合分析的形式，包括多数据源的数据融合、
数据清洗、维规约等等。

二、为什么要进行预处理：
原始数据普遍存在问题，必须加以处理才能用于分析，一方面要提高数据质量，另一方面为了更好的使数据适应特定的数据挖掘技术及工具。

三.数据预处理的功能
① 数据集成(Data Integration)
统一原始数据的矛盾之处(如命名、结构、单位、含义)：
如字段的同名异义、异名同义、单位不统一、字长不一致等,并非简单的复制过程。
② 数据变换( Bata Trartsformstian ）
通常用多维数据立方(Data Cube)组织数据，采用数据仓库中的切换、旋转和投影技
术，把数据空间按照不同的层次、粒度和维度进行抽象和聚集(即数据泛化)，从而生
成在不同抽象级别上的数据集。

③ 数据清洗(Data Cleaning )
Sklearn自带的数据，譬如iris数据集，波士顿房价数据集，质量都很高，没有缺失值，没有异常点，也没有噪音。
真实数据中，我们拿到的数据可能包含了大量的缺失值，噪音，也可能因为人工录入错误导致有异常点存在，所以我们需要通过一些方法，尽量提高数据的质量。

数据清洗常见问题

观测量(Measurement) = 真实数据(True Data) + 噪声 (Noise)
噪声：被测量的变量的随机误差或者方差（一般指错误的数据）
离群点：数据集中包含一些数据对象，他们与数据的一般行为或模型不一致。
（正常值，但偏离大多数数据）

四. 数据降维
（1）概念：将数据从高维特征空间向低纬特征空间映射的过程。
（2）目的：直观地好处是维度降低了，便于计算和可视化，其更深层次的意义在于有效信息的提取综合及无用信息的摈弃。

五. 为什么要数据降维

数据降维原因汇总

六. 数据降维的好处
有时候也存在特征矩阵过大，导致计算量比较大，训练时间长的问题。
降维可以方便数据可视化+数据分析+数据压缩+数据提取等。

七. 常见的降维方法

（1）LDA(线性判别式分析)法：
LDA的思想可以用一句话概括，就是“投影后类内方差最小，类间方差最大”。我们要将数据在低维度上进行投影，投影后希望每一种类别数据的投影点尽可能的接近，而不同类别的数据的类别中心之间的距离尽可能的大。

LDA

（2）PCA(主成分分析)法：
主成分分析（Principal components analysis，以下简称PCA）是重要的降维方法之一。

PCA顾名思义，就是找出数据里最主要的方面，用数据里最主要的方面来代替原始数据。

PCA

PCA在数据压缩消除冗余和数据噪音消除等领域都有广泛的应用,是不考虑样本类别输出的无监督降维技术。

八 . PCA与LDA方法的区别：
不同:
1）在降维过程中可以使用类别的先验知识经验，而像PCA这样的无监督学习则无法使用类别先验知识。
2）LDA在样本分类信息依赖均值而不是方差的时候，比PCA之类的算法较优。
3）LDA不适合对非高斯分布样本进行降维，PCA也有这个问题。
4）LDA降维最多降到类别数k-1的维数，如果我们降维的维度大于k-1，则不能使用LDA。当然目前有一些LDA的进化版算法可以绕过这个问题。
5）LDA在样本分类信息依赖方差而不是均值的时候，降维效果不好。
6）LDA可能过度拟合数据
7）LDA是有监督的降维方法，而PCA是无监督的降维方法
8）LDA降维最多降到类别数k-1的维数，而PCA没有这个限制。
9）LDA除了可以用于降维，还可以用于分类。
10）LDA选择分类性能最好的投影方向，而PCA选择样本点投影具有最大方差的方向。

相同:
1）两者均可以对数据进行降维。
2）两者在降维时均使用了矩阵特征分解的思想。
3）两者都假设数据符合高斯分布。

机器学习--数据预处理

推荐阅读更多精彩内容