数据处理方法简介

数据清洗

重复数据的处理：
函数法：COUNTIF(单元格范围,计算条件)
高级筛选法：数据选项卡 - 排序和筛选 - 高级，勾选“选择不重复的记录”
条件格式法：开始 - 条件格式 - 突出显示单元格规则 - 重复值
数据透视表法：通过透视表可以看出每个数据重复了几次
删除重复数据法：数据选项卡中的“删除重复项”或者根据刚才函数法得到的重复次数排序后删除重复数据
缺失数据处理：最常见的表现形式就是空值或者错误标识符
定位输入：开始 - 编辑 - 查找和选择 - 定位条件，或者使用“Ctrl + G"快捷键
缺失值的四种处理方式：
用样本统计量的值代替缺失值，最典型的做法是使用该字段的平均值代替缺失值；
用统计模型计算出来的值替代缺失值，常用的模型有回归模型、判别模型等；
将有缺失值的记录删除，不过可能会导致样本量的减少；
将有缺失值的记录保留，仅在相应的分析中做必要的排除。
处理建议：在实际操作中，采用样本平均值替代缺失值是比较常见的使用方法。当样本量较大时，我们可以采用定位查找一次，选出样本里的所有空值，再利用“Ctrl + Enter”快捷键再选中的单元格中一次性输入样本平均值。
检查数据逻辑错误：筛选出不符合逻辑的错误
利用IF函数检查错误
利用条件格式标记错误

数据加工

数据抽取：保留原数据表中某些字段的部分信息，组合成一个新字段。
字段分列：
菜单法：通过“数据”选项卡 - 数据工具 - 分列，根据需要选择分隔符号，进行分列。
函数法：
LEFT(text, [num_chars])：从文本字符串的第一个字符开始返回指定个数的字符
RIGHT(text, [num_chars])：根据所指定的字符数返回文本字符串中最后一个或多个字符
MID(text, start_num, num_chars)：返回文本字符串中从指定位置开始的特定数目的字符，该数目由用户指定
字段合并：
逻辑运算符：&，直接A & B即可实现联结，其中A和B代表单元格
函数法：CONCATENATE(text1, [text2], ...)，text1、text2是要联结的项目，可以是文本、数字或单元格引用，最多联结255个项目，总共支持8192个字符。
字段匹配：常用VLOOKUP（要查找的值、要在其中查找值的区域、区域中包含返回值的列号、精确匹配或近似匹配 – 指定为 0/FALSE 或 1/TRUE）函数
数据存在空格，可以通过TRIM(text)函数将空格批量删除；
数据格式不一致，此时将类型或格式转为一致即可。
数据计算
简单计算：想要的字段可以通过加减乘除等简单算术运算就能计算出来；
函数计算：复杂计算就是指运用函数的计算，但平常工作中我们用到的函数并不复杂
平均值：AVERAGE()
求和：SUM()
日期的加减法：
NOW()：使用快捷键“Ctrl + ;”，再按空格键，接着按“Ctrl + Shift + ;”
TODAY()：使用快捷键“Ctrl + ;”
上述俩公式插入的是动态的日期和时间，快捷键插入的是静态的日期和时间；
用函数DATEDIF计算工龄
DATEDIF(start_date,end_date,unit)：返回两个日期之间的年/月/日间隔数
unit有Y/M/D/MD/YM/YD六中格式：
数据分组：准备分组对应表，用VLOOKUP函数匹配即可
数据转换：
数据表的行列互换：复制数据表，在目标单元格右击，选中“选择性粘贴”，勾选“转置”选项即可；
HLOOKUP(lookup_value, table_array, row_index_num, [range_lookup]))：
ISNUMBER()：属于IS函数，此类函数可检验指定值并根据结果返回 TRUE 或 FALSE
SEARCH(find_text,within_text,[start_num])：可以使用通配符，不区分大小写；FIND(find_text,within_text,[start_num])：不可以使用通配符，区分大小写。

数据抽样

RAND()函数的使用：

返回大于等于 0 且小于 1 的均匀分布随机实数。每次计算工作表时都将返回一个新的随机实数；
若要生成 a 与 b 之间的随机实数，请使用：RAND()*(b-a)+a
如果要使用函数 RAND 生成一随机数，并且使之不随单元格计算而改变，可以在编辑栏中输入“=RAND()”，保持编辑状态，然后按 F9，将公式永久性地改为随机数。

本文为《谁说菜鸟不会数据分析-入门篇》第四章读书笔记

数据处理方法简介

数据清洗

数据加工

数据抽样

推荐阅读更多精彩内容