Python入门：清洗数据

异常值

大家可能看过体操或者跳水比赛，当计算运动员得分时，我们要去掉所有评分者打分的最高分和最低分，这是为了减少异常值对分数整体的干扰。比如，之前学习均值的时候，我们知道一组数据的均值会受异常值影响——异常值往往会大幅度拉高或者降低均值的水平。在此基础上，方差和标准差也受异常值影响。因此，为了使数据分析的结果更为稳定，我们有时需要去除数据集中的异常值。对于异常值的定义，并没有统一的标准，要具体情况具体分析。一般来说，我们会引入一个叫做 IQR 的概念（Interquartile Range），它是一组数据集中75分位数值减去25分位数值的差。我们一般认为在一组数据集中，小于（25分位值 - IQR1.5）或大于（75分位 + IQR 1.5）的数值为异常值。

来看具体的例子：

# 我们在之前 score 的列表里加入一个新的元素 2
score = [96,80,85,79,92,42,84,72,93,77,2]
# 求n分位函数
def find_nperc(numbers,n):
    """
    返回numbers中，n分位对应的数值是多少
    """
    # 先将数值排序 
    sorted_numbers = sorted(numbers)
    
    # 找到n分位对应数值的索引位置
    n_index = int(n/100 * len(sorted_numbers))
    
    return sorted_numbers[n_index]

# 25分位数值为 q1_num
q1_num = find_nperc(score,25)
print(q1_num)
# 输出：72

# 75分位数值为 q3_num
q3_num = find_nperc(score,75)
print(q3_num)
# 输出：92

# 计算 IQR
iqr = q3_num - q1_num
print(iqr)
# 输出：20

# 如果 score 中有元素小于 [25分位 - iqr *1.5] 
# 或者大于 [75分位 + iqr * 1.5]
# 则将该元素视作异常值，输出该元素

for s in score:
    if s < (q1_num - iqr * 1.5) or s > (q3_num + iqr * 1.5):
        print("{}是异常值".format(s))
# 输出：2是异常值

空值

有时因为数据源的问题，我们获得的数据集是有瑕疵的。最常见的问题就是有部分“漏掉”的数据，也就是空值。一般来说，在数据分析领域有两种常见的解决方案：一是删除空值，二是将数据集非空值的均值赋予空值。两种方法各有优劣，但此处我们不是讨论的重点。我们在这里需要掌握的，是如何用 Python 对空值数据做上述两种处理：

# score 中存储两次学生的 python 考试成绩 
score = {    
    "老王" : [96,77],
    "阿强" : [80,93],
    "小宝" : [85,72],
    "" : [79,84],
    "萌仔" : [],
    "张小明" : [76,42]
    }
# 我们发现，其中有两处空值：一处本应该是学生的姓名，结果是空字符串，我们打算将该条数据删除；
# 一处是萌仔的成绩为空列表，我们打算将第一次、第二次考试成绩的均值作用萌仔的成绩添加进列表

# 先删除学生名为空字符串的数据
score.pop("","没有空字符串")
print(score)
# 输出：{'老王': [96, 77], '阿强': [80, 93], '小宝': [85, 72], '萌仔': [], '张小明': [76, 42]}

# 接着将第一、二次的考试均分添加至萌仔的成绩列表里：
exam_1 = 0
exam_2 = 0
count = 0
for value in score.values():
    if value == []:
        count += 1
    else:
        exam_1 += value[0]
        exam_2 += value[1]
# mean_1，mean_2 为两次考试非空值均分
mean_1 = exam_1 / (len(score) - count)
mean_2 = exam_2 / (len(score) -count)
for value in score.values():
    # 如果分数列表为空
    if value == []:
        value.append(mean_1)
        value.append(mean_2)
print(score)

数据调整

最后一种常见的清洗数据方式是将已有数据调整成我们需要的类型或单位。比如，有时我们获得了记录时间的数据是字符串 "1小时3分12秒"，我们需要将它改变成以秒为单位的整数类型数据。又有时，我们获得的是以美元为单位的价格数据，我们需要结合汇率比例，将其转换成以人民币为单位的价格。这些都属于数据调整的范畴：

# score 中记录了学生的 python 考试成绩
score = [96,80,85,79,92,42,84,72,93,77]

"""
我们按照以下标准，将其中的整数数据转化成字符串：

90分及以上，转换成："A"；
80~89分，转换成："B"；
70~79分，转换成："C"；
60~69分，转换成："D"；
60分以下，转换成："F"
"""

update_score = []
for s in score:
    if s >= 90:
        update_score.append("A")
    elif s >= 80:
        update_score.append("B")
    elif s >= 70:
        update_score.append("C")
    elif s >= 60:
        update_score.append("D")
    elif s < 60:
        update_score.append("F")
print(update_score)
# 输出：['A', 'B', 'B', 'C', 'A', 'F', 'B', 'C', 'A', 'C']

最后编辑于：2019.06.08 17:03:38

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,921评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 87,635评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,393评论 0赞 338
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,836评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,833评论 5赞 368
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,685评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,043评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,694评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 42,671评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,670评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,779评论 1赞 332
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,424评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,027评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,984评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,214评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,108评论 2赞 351
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,517评论 2赞 343

Python入门：清洗数据

异常值

空值

数据调整

推荐阅读更多精彩内容