数据清洗
重复数据的处理:
函数法:COUNTIF(单元格范围,计算条件)
高级筛选法:数据选项卡 - 排序和筛选 - 高级,勾选“选择不重复的记录”
条件格式法:开始 - 条件格式 - 突出显示单元格规则 - 重复值
数据透视表法:通过透视表可以看出每个数据重复了几次
删除重复数据法:数据选项卡中的“删除重复项”或者根据刚才函数法得到的重复次数排序后删除重复数据
缺失数据处理:最常见的表现形式就是空值或者错误标识符
定位输入:开始 - 编辑 - 查找和选择 - 定位条件,或者使用“Ctrl + G"快捷键
缺失值的四种处理方式:
用样本统计量的值代替缺失值,最典型的做法是使用该字段的平均值代替缺失值;
用统计模型计算出来的值替代缺失值,常用的模型有回归模型、判别模型等;
将有缺失值的记录删除,不过可能会导致样本量的减少;
将有缺失值的记录保留,仅在相应的分析中做必要的排除。
处理建议:在实际操作中,采用样本平均值替代缺失值是比较常见的使用方法。当样本量较大时,我们可以采用定位查找一次,选出样本里的所有空值,再利用“Ctrl + Enter”快捷键再选中的单元格中一次性输入样本平均值。
检查数据逻辑错误:筛选出不符合逻辑的错误
利用IF函数检查错误
利用条件格式标记错误
数据加工
数据抽取:保留原数据表中某些字段的部分信息,组合成一个新字段。
字段分列:
菜单法:通过“数据”选项卡 - 数据工具 - 分列,根据需要选择分隔符号,进行分列。
函数法:
LEFT(text, [num_chars]):从文本字符串的第一个字符开始返回指定个数的字符
RIGHT(text, [num_chars]):根据所指定的字符数返回文本字符串中最后一个或多个字符
MID(text, start_num, num_chars):返回文本字符串中从指定位置开始的特定数目的字符,该数目由用户指定
字段合并:
逻辑运算符:&,直接A & B即可实现联结,其中A和B代表单元格
函数法:CONCATENATE(text1, [text2], ...),text1、text2是要联结的项目,可以是文本、数字或单元格引用,最多联结255个项目,总共支持8192个字符。
字段匹配:常用VLOOKUP(要查找的值、要在其中查找值的区域、区域中包含返回值的列号、精确匹配或近似匹配 – 指定为 0/FALSE 或 1/TRUE)函数
数据存在空格,可以通过TRIM(text)函数将空格批量删除;
数据格式不一致,此时将类型或格式转为一致即可。
数据计算
简单计算:想要的字段可以通过加减乘除等简单算术运算就能计算出来;
函数计算:复杂计算就是指运用函数的计算,但平常工作中我们用到的函数并不复杂
平均值:AVERAGE()
求和:SUM()
日期的加减法:
NOW():使用快捷键“Ctrl + ;”,再按空格键,接着按“Ctrl + Shift + ;”
TODAY():使用快捷键“Ctrl + ;”
上述俩公式插入的是动态的日期和时间,快捷键插入的是静态的日期和时间;
用函数DATEDIF计算工龄
DATEDIF(start_date,end_date,unit):返回两个日期之间的年/月/日间隔数
unit有Y/M/D/MD/YM/YD六中格式:
数据分组:准备分组对应表,用VLOOKUP函数匹配即可
数据转换:
数据表的行列互换:复制数据表,在目标单元格右击,选中“选择性粘贴”,勾选“转置”选项即可;
HLOOKUP(lookup_value, table_array, row_index_num, [range_lookup])):
ISNUMBER():属于IS函数,此类函数可检验指定值并根据结果返回 TRUE 或 FALSE
SEARCH(find_text,within_text,[start_num]):可以使用通配符,不区分大小写;FIND(find_text,within_text,[start_num]):不可以使用通配符,区分大小写。
数据抽样
RAND()函数的使用:
- 返回大于等于 0 且小于 1 的均匀分布随机实数。 每次计算工作表时都将返回一个新的随机实数;
- 若要生成 a 与 b 之间的随机实数,请使用:RAND()*(b-a)+a
- 如果要使用函数 RAND 生成一随机数,并且使之不随单元格计算而改变,可以在编辑栏中输入“=RAND()”,保持编辑状态,然后按 F9,将公式永久性地改为随机数。
本文为《谁说菜鸟不会数据分析-入门篇》第四章读书笔记