4. 数据处理

数据清洗

数据清洗就是将重复的数据筛选清除、将缺失的数据补充完善、将错误的数据纠正或删除

处理重复数据

查找重复数据

COUNTIF函数
  • COUNTIF(range,criteria):统计满足某个条件的单元格的数量
  • range:要统计的单元格的范围
  • criteria:计算条件,可为数字、文本或表达式
高级筛选
  • 数据-排序和筛选-高级:(高级筛选)-选择不重复的记录
条件格式
  • 开始-条件格式-突出显示单元格规则-重复值
数据透视表
  • 将字段同时拖到“行”标签和“值”汇总区域
  • 值字段设置选择“计数”

删除重复数据

菜单操作
  • 数据-数据工具-删除重复项(选择包含重复值的列)
排序
筛选

处理缺失数据

缺失值最常见的表现形式是空值或错误的标识符。

处理缺失值的方法

  1. 用一个样本统计量的值代替缺失的值(例如平均值)
  2. 用一个统计模型计算出来的值去代替缺失值
  3. 将有缺失值的记录删除
  4. 将有缺失值的记录保留,仅在相应的分析中做必要的排除
定位输入
  • Ctrl+G
  • Ctrl+Enter
查找替换
  • Ctrl+H

检查逻辑错误

IF函数
  • IF(logical_test,value_if_true,value_if_false):执行真假值判断,根据逻辑计算的真假值,返回结果
  • logical_test:计算结果为TRUE或FALSE的表达式
  • value_if_true、value_if_fals:分别为TRUE、FALSE时的返回值
  • 条件表达式用比较运算符(<、=、>)建立,“<>”表示不等于
  • 值若是数字可直接书写,若是文本数据需用双引号(" ")标记

条件格式

  • 开始-条件格式-突出显示单元格规格-其他规则-使用公式确定要设置格式的单元格
  • OR(logical1[,logical2,…):至少一个参数为真,则返回TRUE
  • AND(logical1[,logical2,…):所有参数为真,才返回TRUE

数据加工

数据加工时在数据清洗的基础上对数据字段进行信息提取、计算、分组、转换等加工,得到需要的数据表

数据抽取

字段分列

分列
  • 数据-数据工具-分列-分隔符号(或固定宽度)
LEFT、RIGHT函数
  • LEFT(text,[num_chars]):得到字符串左边指定个数的字符
  • RIGHT(text,[num_chars]):得到字符串右边指定个数的字符
  • MID(text,star_num,num_chars):得到文本字符串中指定起始位置起返回的指定长度的字符

字段合并

&
  • TEXT(value,format_text):根据指定的数字格式将数字转成文本
  • value:数值、能够返回数值的公式或对数值单元格的引用
  • format_text:文字形式的数字格式
CONCATENATE函数
  • CONCATENATE(text1,text2,…):将多个文本字符串合并成一个
  • text可以是字符串、数字或对单个单元格的引用

字段匹配

VLOOKUP函数

VLOOKUP函数的作用是在表格的首列查找指定的数据,并返回指定的数据所在行中的指定列处的单元格

  • VLOOKUP(lookup_value,table_array,col_index_num,range_lookup)
  • lookup_value:要在第一列查找的值
  • table_array:包含数据的单元格区域,第一列应当是由lookup_value搜索的值
  • col_index_num:应返回匹配值在table_array中的列序号
  • range_lookup:逻辑值,若要近似匹配使用TRUE(或0)或省略,若要精确匹配使用FALSE
  • 近似匹配识别小于等于lookup_value的值
  • 一般使用精确匹配
HLOOKUP函数

HLOOKUP函数的作用是在表格的首行查找指定的数据,并返回指定的数据所在列中的指定行处的单元格

  • HLOOKUP(lookup_value,table_array,row_index_num,range_lookup)
  • lookup_value:要在第一行查找的值
  • table_array:包含数据的单元格区域,第一列应当是由lookup_value搜索的值
  • row_index_num:应返回匹配值在table_array中的行序号
  • range_lookup:逻辑值,若要近似匹配使用TRUE(或0)或省略,若要精确匹配使用FALSE
  • 近似匹配识别小于等于lookup_value的值
  • 一般使用精确匹配
SEARCH函数
  • SEARCH(find_test,within_text,start_num):返回指定的字符串在原始字符串中首次出现的位置
  • find_test:要查找的文本字符串
  • within_text:被搜索字符串
  • start_num:数字值,指定从被搜索字符串左侧第几个字符开始查找,省略则为1
  • 可以使用问号(?)和星号(*)作为通配符,分别可代表任何一个字符和任何字符串,两个符号前加“~”表示转义

数据计算

简单计算

  • 字段通过加、减、乘、除等简单算术运算即可计算

函数计算

总和与平均值
  • SUM()
  • AVEGAGE()
日期
  • DATE(year,month,day)
  • DATEIF(start_date,end_date,unit)
  • start_date、end_date:起始与结束日期
  • unit:所需信息的返回时间单位代码,有"y"、"m"、"d"、"md"、"ym"、"yd"6种形式
  • "y"返回时间段中的整年数
  • "m”返回时间段中的整月数
  • "d"返回时间段中的天数
  • "md"返回起始日期与结束日期的同月间隔天数,忽略日期中的月份和年份
  • "yd"返回起始日期与结束日期的同年间隔天数,忽略日期中的年份
  • "ym"返回起始日期与结束日期的间隔月数。忽略日期中年份

数据分组

  • 可使用VLOOKUP函数的近似匹配

数据转换

数据表的行列转换

选择性粘贴
  • 开始-剪切板-粘贴-选择性粘贴-转置
  • Ctrl+Alt+V

数据抽样

RAND函数
  • 返回[0,1]的均匀分布随机数
  • 每次计算工作表时都将返回一个新的数值
  • 编辑状态按f9键生成的随机数将永久保存,不再返回新值
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,470评论 6 501
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,393评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,577评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,176评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,189评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,155评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,041评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,903评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,319评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,539评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,703评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,417评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,013评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,664评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,818评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,711评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,601评论 2 353

推荐阅读更多精彩内容