Python主要数据预处理函数
要介绍的Python中的插值、数据归一化、主成分分析等与数据预处理相关的函数。
- Python主要数据预处理函数
函数名 | 函数功能 | 所属扩展库 |
---|---|---|
interpolate | 一维、高维数据插值 | Scipy |
unique | 去除数据中的重复元素,得到单值元素列表,它是对象的方法名 | Pandas/Numpy |
isnull | 判断是否空值 | Pandas |
notnull | 判断是否非空值 | Pandas |
PCA | 对指标变量矩阵进行主成分分析 | Scikit-Leam |
random | 生成随机矩阵 | Numpy |
(1) interpolate
- 1)功能:interpolate是Scipy 的一个子库,包含了大量的插值函数,如拉格朗日插值、样条插值、高维插值等。使用前需要用 from scipy.interpolate import * 引入相应的插值函数,读者应该根据需要到官网查找对应的函数名。
- 2)使用格式:f = scipy.interpolate.lagrange(x, y)。这里仅仅展示了一维数据的拉格朗日插值的命令,其中 x,y 为对应的自变量和因变量数据。插值完成后,可以通过 f(a)计算新的插值结果。类似的还有样条插值、多维数据插值等,此处不一一展示。
(2) unique
- 1)功能:去除数据中的重复元素,得到单值元素列表。它既是 Numpy 库的一个函数(np.unique()),也是 Series 对象的一个方法。
- 2)使用格式:
□ np.unique(D), D 是一维数据,可以是 list、array、Series;
□ D.unique(), D 是 Pandas 的 Series 对象。 - 3)实例:求向量 A 中的单值元素,并返回相关索引。
import pandas as pd
import numpy as np
D=pd.Series([1,1,2,3,5])
print(D.unique())
print(np.unique(D))
[1 2 3 5]
[1 2 3 5]
(3)isnull/ notnull
- 1)功能:判断每个元素是否空值/非空值。
- 2)使用格式:D.isnull()/D.notnull()。这里的D要求是Series对象,返回一个布尔Serieso可以通过D[D.isnull()]或 D[D.notnull()]找出D中的空值/非空值。
(4) random
- 1)功能:random是Numpy的一个子库(Python本身也自带了random,但Numpy的更加强大),可以用该库下的各种函数生成服从特定分布的随机矩阵,抽样时可使用。
- 2)使用格式:
□ np.random.rand(k,m,n,...)生成一个随机矩阵,其元素均匀分布在区间(0,1)上;
□ np.random.randn(k,m,n,...)生成一个随机矩阵,其元素服从标准正态分布。
(5)PCA
- 1)功能:对指标变量矩阵进行主成分分析。使用前需要用 from skleam.decomposition import
PCA引入该函数。 - 2)使用格式:model=PCA()。注意,Scikit-Leam下的PCA是一个建模式的对象,也就是说,一般的流程是建模,然后是训练 model.fit(D), D 为要进行主成分分析的数据矩阵,训练结束后获取模型的参数,如.components_获取特征向量,以及.explained_variance_ratio_ 获取各个属性的贡献率等。
- 3)实例:使用PCA()对一个 10x4 维的随机矩阵进行主成分分析。
from sklearn.decomposition import PCA
D = np. random. rand (10,4)
pca = PCA()
pca. fit (D)
print("模型的各个特征向量:")
print(pca.components_) #返回模型的各个特征向量
print("各个成分各自的方差百分比:")
print(pca.explained_variance_ratio_) #返回各个成分各自的方差百分比
小结
数据预处理的4个主要任务:数据清洗、数据集成、数据变换和数据规约。
- 处理缺失值的方法分为3类:删除记录、数据插补和不处理,处理异常值的方法有删除含有异常值的记录、不处理、平均值修正和视为缺失值;数据集成是合并多个数据源中的数据,并存放到一个数据存储的过程,对该部分的介绍从实体识别问题和冗余属性两个方面进行;
- 数据变换介绍了如何从不同的应用角度对已有属性进行函数变换;
- 数据规约从属性(纵向)规约和数值(横向)规约两个方面介绍了如何对数据进行规约,使挖掘的性能和效率得到很大的提高。
通过对原始数据进行相应的处理,将为后续挖掘建模提供良好的数据基础。