读《谁说菜鸟不会数据分析》2016-05-04

第四章 数据处理

前面说了,在进行数据分析前要对我们的数据进行处理,处理是分析前很重要的工作

1. 数据分析人应该有的心态:“三心二意”

信心:在没有看到任何积极反馈信息时,依然充满信心,坚持前行

细心:在历史上无数事例告诉我们一个小数点可能引起一场大灾难,1%的错误=100%的错误,所以一定要细心,对于某些差异性较大的数据要有敏感心

平常心:争取做到“众人皆醉我独醒,众人皆浊我独清”,宁静致远,洞悉事物本质,做事实事求是

诚意:严谨真诚

合意:分析的结果要满足相关需求人员的满意,达到他们的分析目的。这就说明在分析前就要清楚他们需要什么,随时向他们反映分析的细节和进度,以便随时沟通了解需求

2.第一步:数据清洗

数据处理中,先要对数据进行清洗,包括三步:去重/补缺/检查逻辑

去重:找到多余重复的数据删除,这里先说如何找到重复数据

找重法1)函数法:识别重复数据 使用Excel里的countif函数对满足耽搁条件的单元格计数

countif(range,criteria),两个参数为要计数的单元格,计数条件

法2)高级筛选:直接利用[数据]中的[排序和筛选]中[高级]选择[选择不重复的记录]

法3)条件格式:Excel 里设置了标识重复值的功能,[开始]中的[条件格式]中的[突出单元格规则]中选[重复值]

法4)数据透视表:将要查的属性放入行标签,再放入值标签就可以看到重复的数据

删重法1)利用菜单:[数据]中的[删除重复项]

法2)通过排序:利用函数识别出重复值后针对计数行排序后删除重复[开始]里的[编辑部分]的[排序与的筛选]

法3)通过筛选,基本操作大致同上

补缺:一般我们要使用定位输入,先用定位输入找出缺失值为空的单元格,则利用”定位输入”找到所有空白的单元格,[开始]中的[编辑]中单击下拉里的[定位条件]中的[空值]找到所有空值,可以通过4种方法处理缺失

法1):用一个样本统计量的值代替缺失,一般使用样本的平均值

法2):用一个统计模型计算出值代替缺失,常用模型为“回归模型,判别模型”,使用专业的分析软件

法3):删除缺失值记录(会减少样本量)

法4):将所有的缺失的记录保留,仅在相应的分析中做必要的排除,变量间逻辑关系简单,缺失值较少时可以使用

此时定位出所有缺失值,在其中一个单元格输入平均值,然后ctrl+enter直接一次填入所有的缺失单元格

查找ctrl+F 替换ctrl+H

检查逻辑:错误数据分为:输入错误/录入错误

对于错误数据,首先利用if检查,错误数据返回“false”正确数据返回“true",再利用[条件格式]检查第二类错误,如输入的数字只能为“0”,“1”,录入其他数字,将单元格突出

if(logical_test,value_if_true,value_if_false),第一个参数表示表达式,第二个结果“真”返回值,第三个为结果“假”返回值

检查逻辑错误,[开始]中的[条件格式]中的[突出单元格]的[其他规则]的[使用公式确定单元格]中输入“=or函数()=false”判断,意思是如果单元格的值不是不啦不拉,就突出单元格

or(logical1,logical2,...)

and(logical1,logical2,...)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,163评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,301评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,089评论 0 352
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,093评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,110评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,079评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,005评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,840评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,278评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,497评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,667评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,394评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,980评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,628评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,796评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,649评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,548评论 2 352

推荐阅读更多精彩内容