数据预处理也有套路的

数据挖掘的核心是什么?这个的答案是算法,应该没什么疑问。那数据挖掘的基石又是什么呢?那就是今天我们要来说的数据预处理。

什么是数据预处理?

image

数据科学家们一直想为数据预处理赋予一个定义。其实简单地说,数据预处理就是一种数据挖掘技术,本质就是为了将原始数据转换为可以理解的格式或者符合我们挖掘的格式。

那么为什么需要数据预处理呢

在真实世界中,数据通常是不完整的(缺少某些感兴趣的属性值),不一致的(包含代码或者名称的差异),极易受到噪声(错误或异常值)的侵扰的。因为数据库太大,而且数据集经常来自多个异种数据源,低质量的数据将导致低质量的挖掘结果。就像一个大厨现在要做美味的蒸鱼,如果不将鱼进行去鳞等处理,一定做不成我们口中美味的鱼。数据预处理就是解决上面所提到的数据问题的可靠方法。

那它是怎么做到的呢?

就像大厨准备处理鱼的刀具一样,数据预处理也是如此。它准备原始数据以便进一步处理。下面是数据预处理要采取的步骤,如图:


1546844590(1).jpg

数据清洗: 填写缺失的值,光滑噪声数据,识别或删除离群点,并解决不一致性来“清理数据”。

数据集成:使用多个数据库,数据立方体或文件

数据归约: 用替代的,较小的数据表示形式替换元数据,得到信息内容的损失最小化,方法包括维规约,数量规约和数据压缩

数据变换:将数据变换成使用挖掘的形式。

下面这张图很形象得把这四个步骤的作用表现出来,挺有意思的。

image

数据预处理任务

应用

是时候我们采取一些简单的实际应用来了解数据预处理是如何完成的

下面的例子我们用 python 来处理,还需要用到两个库,分别是 numpy,pandas。

准备数据

在这里,我们有一个数据集,其中包括IT专业人员的信息,比如国家,工资,性别,如下:

image

我们可以随意创建此数据集的副本。

我们可以观察到上面的数据集包含一些空值,这是故意的。后面很快可以看到它发挥的作用

导入库

简单说下 numpy, pandas 这两个库的作用,numpy 库包含数学工具,它可以用于在我们代码中的任何类型的数学。pandas 库用于导入和管理数据集。

下面是我们导入库的方法

import pandas as pd
import numpy as np

导入数据集

我们已经导入库了,接下来我们需要获取数据集。在我本地里,我将我的数据集文件命名为‘profess’,它的格式为.csv。

#读取数据(我的数据集文件跟我的python文件在同一目录下)
data = pd.read_csv("profess.csv")

导入数据集后,我们输出看下它的格式如何

print(data)
image

good!我们成功得将数据集导入测试环境中。

数据清洗--查看缺失值

为了成功管理数据,缺失值的概念很重要。如果工程师没有正确处理缺失值,可能最后得出关于数据的推断是不准确的。 我们再来仔细看下我们的数据的缺失值情况,用 pandas 库的 isnull 函数来看看。

print(data.isnull().sum())
image

我们可以发现 Age,Salary列都有缺失值(就是为空的值),缺失值数量都为1。处理缺失值有7种处理方法,我们这里说说比较常用的两种。

1、此方法经常用于处理空值,如果某行有特定特征d的空值,就删除此行。如果特定列具有超过75%的缺失值,就删除特定列。不过我们要在确保样本数据足够多的情况下,采用这个方法。因为我们要确保删除数据后,不会增加偏差。

data.dropna(inplace=True)
print(data.isnull().sum())
image

2、这个方法适用于具有年份或者年龄,金额等数字数据的功能。我们可以计算特征的均值,中值或众数,将其替换为缺失值。与第一种方法相比,这种可以抵消数据的缺失,产生更好的效果。

我们用来看一下操作

# 将 Age 列中为空的值替换为 Age 的中位数。
# medain()是 pandas 库的求中位数的方法
data['Age'] = data['Age'].replace(np.NaN,data['Age'].median()) 
print(data['Age'])
image

我们成功替换掉了

数据归约 为了满足挖掘需求,我们需要知道这些工程师们的薪水分布区间,但是我们只有 ‘Salary’ 薪水这一列,所以为了方便挖掘,我们给我们的数据集增加‘薪水等级’ level 这一列,通过 Salary 列进行区间归约,这种方法叫做“属性构造”。我们看看操作

#数据归约
def section(d):       
  if 50000 > d:                 
    return "50000以下"
  if  100000 > d >= 5000:                 
    return "50000-100000"
  if  d > 100000:                ‘
    return "100000以上"

data['level'] =  data['Salary'] .apply(lambda x: section(x))
print(data['level'])
image

我们定义一个‘数据变换’的函数给,根据 Salary 判断选择区间进行变换并赋值给 level。

数据变换

我们可以看到 Salary 列也有空值,从业务上理解它应该是数字数值才是。但是我们发现我们的数据集中是货币格式,我们需要对它进行‘数据变换’,转换成我们所需的数字格式。来看下实际操作

#数据变换
def convert_currency(d):
    new_value = str(d).replace(",","") .replace("$","")
    return float(new_value)
                    
data['Salary'] = data['Salary'].apply(convert_currency)

# mean()是 pandas 库的求平均值的方法
data['Salary'] = data['Salary'] .replace(np.NaN,data['Salary'].mean())
print(data['Salary'])

变换成功

image

我们定义一个“数据变换”的函数,然后将它应用再 Salary 列上,最后同数据清洗那一步同样的替换操作,我们这里用平均值替换。

总结下

至此我们算走完数据预处理的一个基本流程。这是比较基础的一个小应用。但是相信我们以后处理数据的时候能有一个基本清晰的解决思路,以及如何选择处理方法以及为什么选择有所了解。

数据挖掘一路走来,也有几十年的历史了,数据预处理每个步骤都开发出很多的方法。由于不一致或脏数据的数量巨大,以及问题本身的复杂性,数据预处理仍然是一个活跃的研究领域。篇幅所限,无法一一叙述,以后会再深入。

我整理了数据预处理的一个思维导图,对系统了解数据预处理有一定帮助,一直都相信了解体系对于学习能起到重要作用。有需要关注公众号回复【数据预处理】获得。

ps:本文所用例子的数据集以及代码有需要可以点击下面链接下载

https://github.com/Tomcccc/Blog

推荐阅读:

一个数据仓库时代开始--Hive

不一样的并发编程 -- Actor 并发编程模型

数据的相似性和相异性我们可以怎么分析

本文首发微信公众号“哈尔的数据城堡”.

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,948评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,371评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,490评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,521评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,627评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,842评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,997评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,741评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,203评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,534评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,673评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,339评论 4 330
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,955评论 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,770评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,000评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,394评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,562评论 2 349

推荐阅读更多精彩内容