一. 数据预处理:
将未加工数据转换成适合分析的形式,包括多数据源的数据融合、
数据清洗、维规约等等。
二、为什么要进行预处理:
原始数据普遍存在问题,必须加以处理才能用于分析,一方面要提高数据质量,另一方面为了更好的使数据适应特定的数据挖掘技术及工具。
三.数据预处理的功能
① 数据集成(Data Integration)
统一原始数据的矛盾之处(如命名、结构、单位、含义):
如字段的同名异义、异名同义、单位不统一、字长不一致等,并非简单的复制过程。
② 数据变换( Bata Trartsformstian )
通常用多维数据立方(Data Cube)组织数据,采用数据仓库中的切换、旋转和投影技
术,把数据空间按照不同的层次、粒度和维度进行抽象和聚集(即数据泛化),从而生
成在不同抽象级别上的数据集。
③ 数据清洗(Data Cleaning )
Sklearn自带的数据,譬如iris数据集,波士顿房价数据集,质量都很高,没有缺失值,没有异常点,也没有噪音。
真实数据中,我们拿到的数据可能包含了大量的缺失值,噪音,也可能因为人工录入错误导致有异常点存在,所以我们需要通过一些方法,尽量提高数据的质量。
观测量(Measurement) = 真实数据(True Data) + 噪声 (Noise)
噪声:被测量的变量的随机误差或者方差(一般指错误的数据)
离群点:数据集中包含一些数据对象,他们与数据的一般行为或模型不一致。
(正常值,但偏离大多数数据)
四. 数据降维
(1)概念:将数据从高维特征空间向低纬特征空间映射的过程。
(2)目的:直观地好处是维度降低了,便于计算和可视化,其更深层次的意义在于有效信息的提取综合及无用信息的摈弃。
五. 为什么要数据降维
六. 数据降维的好处
有时候也存在特征矩阵过大, 导致计算量比较大,训练时间长的问题。
降维可以方便数据可视化+数据分析+数据压缩+数据提取等。
七. 常见的降维方法
(1)LDA(线性判别式分析)法:
LDA的思想可以用一句话概括,就是“投影后类内方差最小,类间方差最大”。我们要将数据在低维度上进行投影,投影后希望每一种类别数据的投影点尽可能的接近,而不同类别的数据的类别中心之间的距离尽可能的大。
(2)PCA(主成分分析)法:
主成分分析(Principal components analysis,以下简称PCA)是重要的降维方法之一。
PCA顾名思义,就是找出数据里最主要的方面,用数据里最主要的方面来代替原始数据。
PCA在数据压缩消除冗余和数据噪音消除等领域都有广泛的应用,是不考虑样本类别输出的无监督降维技术。
八 . PCA与LDA方法的区别:
不同:
1)在降维过程中可以使用类别的先验知识经验,而像PCA这样的无监督学习则无法使用类别先验知识。
2)LDA在样本分类信息依赖均值而不是方差的时候,比PCA之类的算法较优。
3)LDA不适合对非高斯分布样本进行降维,PCA也有这个问题。
4)LDA降维最多降到类别数k-1的维数,如果我们降维的维度大于k-1,则不能使用LDA。当然目前有一些LDA的进化版算法可以绕过这个问题。
5)LDA在样本分类信息依赖方差而不是均值的时候,降维效果不好。
6)LDA可能过度拟合数据
7)LDA是有监督的降维方法,而PCA是无监督的降维方法
8)LDA降维最多降到类别数k-1的维数,而PCA没有这个限制。
9)LDA除了可以用于降维,还可以用于分类。
10)LDA选择分类性能最好的投影方向,而PCA选择样本点投影具有最大方差的方向。
相同:
1)两者均可以对数据进行降维。
2)两者在降维时均使用了矩阵特征分解的思想。
3)两者都假设数据符合高斯分布。