1, 数据预处理的过程主要包括:数据清洗,数据集成,数据转换和数据规约。
2,牛顿插值法: https://www.zhihu.com/question/22320408/answer/141973314
3 , 数据规范化:
3.1 最小最大规范化
3.2 零-均值规范化
σ 为标准差
3.3 小数定标规范化
K为数据绝对值最大的以10为底的次幂的向上取整。
4,常用的离散化方法:
4.1 等宽法
4.2 等频法
4.3 基于聚类分析的方法Kmeans
5, 数据规约:
意义:
1, 降低无效,错误数据对建模的影响,提高建模的准确性
2, 少量且具有代表性的数据架将大幅度缩减数据挖掘所需的时间
3, 降低存储数据的成本
6,属性规约常见方法:
注:主成分分析是一种用于连续属性的数据降维方法,它构造了原始数据的一个正交变换,新空间的基底去除了原始空间基底下数据的相关性,只需使用少数新变量就能够解释原始数据中的大部分变异。
主成分分析步骤:
7,数值规约
数值规约指通过选择代替的,较小的数据来减少数据量,包含有参数和无参数方法两类。有参数方法是使用一个模型来评估数据,只需存放参数,而不需要存放数据,例如回归(线性回归和多元回归)和对数线性模型(近似离散属性集中的多维概率分布)。无参数方法就需要存放实际的数据,例如直方图,聚类,抽样。
7.1 直方图
7.2 聚类
7.3 抽样
7.3.1 s个样本无放回简单随机抽样
7.3.2 s个样本有放回简单随机抽样
7.3.3聚类抽样
7.3.4 分层抽样
7.4参数回归
8,python主要数据预处理函数