数据处理之缺失值处理(python)

hello
四月底啦 节前最后一天 提前祝大家五一快乐~
现在都是随缘更新啦!谢谢还有一直关注的友友们!
今天简单记录一些数据处理的方法


缺失值

现实应用中,我们收集到的实际数据常常会因为各种原因出现部分缺失或者取不到值的情况,为了后续更有效地完成数据分析、预测等任务,通常需要进行数据的缺失值处理,即可以看做数据预处理。这里,主要记录运用python处理的相关方法,当然现在还有很多软件可以自动化处理,这里不展开。

1.缺失值查看

对数据进行缺失值处理时,要先做的就是分析数据中是否存在缺失值,以及缺失值存在的形式。
针对导入的数据表,可以使用pd.isna()方法,判断每个位置是否为缺失值,例如,使用pd.isna().sum(),在判断数据数据中的每个元素是否为缺失值后,使用sum()方法,对每列求和,可以计算出每个变量缺失值的数量。

相关函数如下:

数据中的缺失值一般是基于3种缺失值机制来识别缺失模式:
MCAR(完全随机丢失)
如果数据的缺失与任何值(观察或缺失)之间没有关系,则为MCAR。
MAR(半随机丢失)
您必须考虑MAR与MCAR有何不同, 如果缺失和观测值之间存在系统关系,则为MAR。 例如-男性比女性更容易告诉您自己的体重,因此体重就是MAR。 “ Weight”变量的缺失取决于变量“ Sex”的观测值。
MNAR(不随机丢失)
如果2个或更多变量的缺失具有相同模式,则为MNAR。
具体可参考:数据的预处理基础:如何处理缺失值

除此,可以对缺失值可视化,更好观察变量关系
missingno是一个可以将缺失值情况进行可视化的库,十分便捷、好用。

1.安装及导入

pip install missingno
import missingno as msno

2.位置缺失可视化:msno.matrix()
3.条形图查看:msno.bar()
4.热力(相关图)查看:msno.heatmap()
5.树状图查看:msno.dendrogram()

2. 缺失值处理

1.缺失值删除

如果缺少的值非常少,则可以使用删除方法,将缺失值样本删除。 如果缺少分析中所包含的变量的值,按列表删除方法将完全删除个案。

适用于缺失模式为MCAR(随机完全缺失)。 当缺失值很少且缺失完全是随机的并且不取决于观察值或未观察值时,可以使用上述技术。但当缺失数据是非随机分布时,这种方法可能导致数据发生偏离,从而导致错误的结果。

2.基于插补的方法

1.均值插补 (均值可以包括平均值、众数、中位数等)
在处理数据时可以把变量分为数值型和非数值型
如果是非数值型的缺失数据,运用统计学中众数的原理,用此变量在其他对象中取值频数最多的值来填充缺失值(众数填补);
如果是数值型的缺失值,则取此变量在其他所有对象的取值均值/中位数等值来补齐缺失值。

Tip:对于正态分布的数据可以使用均值代替,如果数据是倾斜的,使用中位数可能更好。
适用于在缺失值是完全随机缺失时为总体均值或总量提供无偏估计。但此方法会使得插补值集中在均值点上,在分布上容易形成尖峰,导致方差被低估。
2.KNN插补与K-Means插补
KNN插补
KNN是基于特征相似性来预测新数据点的值,意味着新数据点是基于和其他点的相似程度来被赋值。
这对于缺失值的预测非常有用,可以通过找到距离缺失值距离最近的K个数据点,然后基于这些点的值来插补缺失值。
KNN插补即首先创建一个基本的均值插补,使用构建一个KDTree, 然后使用KDTree来计算距离最近的点(NN),找到距离最近的K个点以后,取这些点的加权平均数。


k-means插补则是是利用无缺失值的特征来寻找最近的N个点,然后用这N个点的我们所需的缺失的特征平均值来填充。

其余插补方法可见:对于缺失值的处理

3.基于模型的方法

使用回归、贝叶斯、随机森林、决策树等模型对缺失数据进行预测
基于已有的其他字段,将缺失字段作为目标变量进行预测,从而得到较为可能的补全值。如果带有缺失值的列是数值变量,采用回归模型补全;如果是分类变量,则采用分类模型补全。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,222评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,455评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,720评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,568评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,696评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,879评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,028评论 3 409
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,773评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,220评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,550评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,697评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,360评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,002评论 3 315
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,782评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,010评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,433评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,587评论 2 350

推荐阅读更多精彩内容