【数据分析】-007-数据预处理-Python主要数据预处理函数

Python主要数据预处理函数

要介绍的Python中的插值、数据归一化、主成分分析等与数据预处理相关的函数。

  • Python主要数据预处理函数
函数名 函数功能 所属扩展库
interpolate 一维、高维数据插值 Scipy
unique 去除数据中的重复元素,得到单值元素列表,它是对象的方法名 Pandas/Numpy
isnull 判断是否空值 Pandas
notnull 判断是否非空值 Pandas
PCA 对指标变量矩阵进行主成分分析 Scikit-Leam
random 生成随机矩阵 Numpy

(1) interpolate

  • 1)功能:interpolate是Scipy 的一个子库,包含了大量的插值函数,如拉格朗日插值、样条插值、高维插值等。使用前需要用 from scipy.interpolate import * 引入相应的插值函数,读者应该根据需要到官网查找对应的函数名。
  • 2)使用格式:f = scipy.interpolate.lagrange(x, y)。这里仅仅展示了一维数据的拉格朗日插值的命令,其中 x,y 为对应的自变量和因变量数据。插值完成后,可以通过 f(a)计算新的插值结果。类似的还有样条插值、多维数据插值等,此处不一一展示。

(2) unique

  • 1)功能:去除数据中的重复元素,得到单值元素列表。它既是 Numpy 库的一个函数(np.unique()),也是 Series 对象的一个方法。
  • 2)使用格式:
    □ np.unique(D), D 是一维数据,可以是 list、array、Series;
    □ D.unique(), D 是 Pandas 的 Series 对象。
  • 3)实例:求向量 A 中的单值元素,并返回相关索引。
import pandas as pd
import numpy as np
D=pd.Series([1,1,2,3,5])
print(D.unique())
print(np.unique(D))

[1 2 3 5]
[1 2 3 5]

(3)isnull/ notnull

  • 1)功能:判断每个元素是否空值/非空值。
  • 2)使用格式:D.isnull()/D.notnull()。这里的D要求是Series对象,返回一个布尔Serieso可以通过D[D.isnull()]或 D[D.notnull()]找出D中的空值/非空值。

(4) random

  • 1)功能:random是Numpy的一个子库(Python本身也自带了random,但Numpy的更加强大),可以用该库下的各种函数生成服从特定分布的随机矩阵,抽样时可使用。
  • 2)使用格式:
    □ np.random.rand(k,m,n,...)生成一个k\times m \times n \times …随机矩阵,其元素均匀分布在区间(0,1)上;
    □ np.random.randn(k,m,n,...)生成一个k\times m \times n \times …随机矩阵,其元素服从标准正态分布。

(5)PCA

  • 1)功能:对指标变量矩阵进行主成分分析。使用前需要用 from skleam.decomposition import
    PCA引入该函数。
  • 2)使用格式:model=PCA()。注意,Scikit-Leam下的PCA是一个建模式的对象,也就是说,一般的流程是建模,然后是训练 model.fit(D), D 为要进行主成分分析的数据矩阵,训练结束后获取模型的参数,如.components_获取特征向量,以及.explained_variance_ratio_ 获取各个属性的贡献率等。
  • 3)实例:使用PCA()对一个 10x4 维的随机矩阵进行主成分分析。
from sklearn.decomposition import PCA
D = np. random. rand (10,4)
pca = PCA()
pca. fit (D)
print("模型的各个特征向量:")
print(pca.components_) #返回模型的各个特征向量
print("各个成分各自的方差百分比:")
print(pca.explained_variance_ratio_)  #返回各个成分各自的方差百分比

小结

数据预处理的4个主要任务:数据清洗、数据集成、数据变换和数据规约。

  • 处理缺失值的方法分为3类:删除记录、数据插补和不处理,处理异常值的方法有删除含有异常值的记录、不处理、平均值修正和视为缺失值;数据集成是合并多个数据源中的数据,并存放到一个数据存储的过程,对该部分的介绍从实体识别问题和冗余属性两个方面进行;
  • 数据变换介绍了如何从不同的应用角度对已有属性进行函数变换;
  • 数据规约从属性(纵向)规约和数值(横向)规约两个方面介绍了如何对数据进行规约,使挖掘的性能和效率得到很大的提高。

通过对原始数据进行相应的处理,将为后续挖掘建模提供良好的数据基础。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,544评论 6 501
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,430评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,764评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,193评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,216评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,182评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,063评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,917评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,329评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,543评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,722评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,425评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,019评论 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,671评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,825评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,729评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,614评论 2 353

推荐阅读更多精彩内容

  • Python主要数据预处理函数 下表给出了本节要介绍的Python中的插值、数据归一化、主成分分析等与数据预处理相...
    冰度猎魂阅读 773评论 0 0
  • 算法技术解构 1、Python基础知识 (1)IPythonIPython的开发者吸收了标准解释器的基本概念,在此...
    shenciyou阅读 5,300评论 0 10
  • d3 (核心部分)选择集d3.select - 从当前文档中选择一系列元素。d3.selectAll - 从当前文...
    谢大见阅读 3,441评论 1 4
  • 数据预处理的主要步骤包括数据清理、数据集成、数据归约和数据变换。数据清理可以用来清除数据中的噪声,纠正不一致。数据...
    cccshuang阅读 1,769评论 0 0
  • 数据规约 在大数据集上进行复杂的数据分析和挖掘需要很长的时间,数据规约产生更小但保持原 数据完整性的新数据集。在规...
    张雅琛阅读 1,938评论 0 3