不懂编程没关系,用Excel也可以进行数据清洗

数据预处理是指对获取到的原始数据进行合并、清洗和转换,从而让数据结构化、规范化、易于分析。

数据预处理是整个分析阶段耗时最长的部分,需要花时间将杂乱无章、格式不规范的数据处理成条理清晰、逻辑清楚、规整有序的数据表。数据预处理可以说是数据分析中十分重要的一个环节,因为Excel中的数据关系、函数逻辑缜密,一个微小的差错就能导致整个分析结果出现巨大偏差。

在做预处理之前,需要先了解下常用函数的运算逻辑。

了解Excel常用的函数

函数是用来完成计算的一种方便、快捷的工具。

Excel中的函数有很多,进行数据分析的话,只需掌握常用的函数即可。

在Excel中函数由函数名+括号+参数组成,参数可无。函数公式表示方式如下

=函数名(参数1,参数2,…)

图1 - Excel中的函数类型及函数总数

图2 - DAYS函数用法及示例
图3 - DATEDIF函数用法及示例
图4 - 其它常见函数及其用法

在写函数时,需要注意以下几点:(1)函数名前必须有等号,否则不能成功运用该函数;(2)函数中的符号,如逗号、引号等都是英文状态下的半角字符,否则会报错;(3) 嵌套函数时要注意多个括号是否完整。

数据预处理的第一步就是数据清洗,数据本身是一座金矿、一种资源,沉睡的资源是很难创造价值的,它必须经过清洗、分析、建模、可视化等过程加工处理之后,才真正产生价值。

  数据清洗的目的是发现并纠正数据文件

数据清洗是发现并纠正数据文件中可识别错误的一道程序,该步骤针对数据审查过程中发现的明显错误值、缺失值、异常值、可疑数据,选用适当方法进行“清理”,使“脏”数据变为“干净”数据,有利于后续的统计分析得出可靠的结论。当然,数据清理还包括对重复记录进行删除、检查数据一致性。如何对数据进行有效的清理和转换使之成为符合数据挖掘要求的数据源是影响数据挖掘准确性的关键因素。

1、缺失值的判断和处理

缺失值即数据值为空的值,又称“空值”。由于人为和系统的原因,原始数据表中不可避免地会出现空值,数据清洗的第一步就是要找出空值并选择合适的方法进行处理。寻找空值有很多方法,这里提供筛选和定位空值两个思路:

(1)筛选空值

在数据量较少的情况下,筛选空值是很有效的方法。选中原始数据表的标题行,单击【数据】→【排序和筛选】→【筛选】按钮,发现每一列字段右侧都出现了下拉按钮,这时便可以对字段进行筛选了,如图所示

图5 - 通过筛选功能对空值进行数据清洗

对【部门】列进行筛选,发现有空值的,勾选【空白】复选框,就可以将空值筛选出来。同理,可以找出每一列的空值。

(2)定位空值

定位空值要用到【定位条件】选项,具体操作如下。选中整张表,选择【开始】→【编辑】→【查找和选择】→【定位条件】选项,如图所示:

图6 - 通过定位条件查找空值

在弹出的【定位条件】对话框中选择【空值】选项,单击【确定】按钮。可以看到,整张表中所有的空值都被选中了。

图7 - 定位空值

(3)处理空值

对于空值的处理,需结合实际的数据和业务需求,一般来说有以下3种处理方式:删除、保留、使用替代值。

删除:顾名思义就是将含有空值的整条记录都删除。删除的优点是删除以后整个数据集都是有完整记录的数据,且操作简单、直接;缺点是缺少的这部分样本可能会导致整体结果出现偏差。

保留:优点是保证了样本的完整性;缺点是需要知道为什么要保留、保留的意义是什么、是什么原因导致了空值(是系统的原因还是人为的原因)。这种保留建立在只缺失单个数据且空值是有明确意义的基础上。

使用替代值:指用均值、众数、中位数等数据代替空值。使用替代值的优点是有理有据;缺点是可能会使空值失去其本身的含义。对于替代值,除了使用统计学中常用的描述数据的值,还可以人为地赋予空值一个具体的值。

2、重复值的判断与处理

获取数据的时候可能由于各种原因出现数据重复的情况。对于这样的数据,我们没必要重复统计,因此需要找出重复值并删除。这里提供一种寻找重复值的思路:COUNTIF()函数。

图8 - 常用统计函数

函数:COUNTIF(Range,Criteria)

作用:计算特定区域中满足条件单元格的数量

模板:COUNTIF(统计区域,条件)

参数解释:Range为要统计的区域,Criteria为统计条件。对于重复值,一般应删除

3、异常值的判断与处理

异常值即数据中出现的个别偏离其余观测值范围较多的值。

异常值的判断标准又是什么呢?

统计学上的异常值是指一组数据中与平均值的偏差超过两倍标准差的值,而在业务层面上,如果某个类别变量出现的频率非常少,也可以判断其为异常值。对异常值的判断除了依靠统计学常识外,更多依靠的是对业务的理解。

从技巧上来说,对异常值的判断还需要多种函数相互结合。如直接删除或者在认为合理的情况下更改异常值。直接删除的情况是异常值对数据分析没有特别大的帮助且会形成误导,因此删除就好;而可更改异常值的情况是通过经验判断,我们有把握将异常值改为正常值。更改异常值的好处是不必删除数据,保存了数据的完整性;坏处是不确定更改的异常值是否正确。这两种处理方式在实际情况中可酌情使用。

4、不规范数据的处理

在实际工作中,总是不可避免地会遇到不规范的数据。下面就来讲解如何将这些不规范的数据处理成规范的数据。

(1)处理合并单元格

合并单元格不应该出现在原始数据表中,但可以出现在数据展示表中,当原始数据表中出现了合并单元格的情况时,我们需要对合并单元格的数据进行处理。常用的方法是取消合并单元格,并做相应的填充。选中某些已合并数据,单击【开始】→【对齐方式】→【合并后居中】按钮,取消该区域中已合并的单元格。并对已分开的单元格进行内容填充。

(2)删除或填充表中的空行

表中多余的空行必须删除,否则会对后续的处理和分析造成误导。对于少量的数据,我们可以直接看到空行并删掉。但对于大量的数据,如何快速删除多余的空行呢?运用最广泛的功能就是定位空值。只要能定位出空值,不管是批量填充还是删除行,就都很好处理了。

数据清洗是数据预处理中至关重要的环节,清洗后数据的质量很大程度上决定了后续研究型数据分析的结果准确性。

©著作权归作者所有,转载或内容合作请联系作者
禁止转载,如需转载请通过简信或评论联系作者。
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,444评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,421评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,036评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,363评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,460评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,502评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,511评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,280评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,736评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,014评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,190评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,848评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,531评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,159评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,411评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,067评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,078评论 2 352

推荐阅读更多精彩内容