生如夏花之绚烂,死如秋叶之静美。
数据清洗听起来很神秘,其实每一个职场人在用 Excel 的时候几乎都会重复的在做。在数据真正能为我们所用之前,对数据删除空行空列、清除空格打印字符、分列、替换等都是数据清洗过程。
将杂乱无章的数据整理成有规则的、可供分析的过程,可以称之为「数据清洗」。
导入 Power Query 查询编辑器的数据如下,我们通过菜单中的 10 个功能进行数据清洗。
Ch07 Examples\GL Jan-Mar
01、删除行
导入数据的前10行都是无用的标题行,可以使用 Power Query 主页提供的「删除行」功能进行删除。
PQ提供了丰富的删除行操作,这里我们选择:删除最前面的几行 > 10 > 确定。
02、修整和清除
现在数据看起来规整多了,但是我们仔细观察可以看到列的两边有多余的空格,同时还有一些打印字符需要将其清除。
选中列,在转换选项卡下,格式功能中可以找到「修整」和「清除」。
在 Excel 中有 Trim() 及 Clean() 函数可以将前导、尾随及中间多余的空白单元格删除
(字符中间仅保留一个单元格)
。不同的是,PQ的「修整」功能并不能删除字符中间多余的空格。
03、按字符数拆分列
和 Excel 的拆分列功能相似,我们可以看到 PQ 将数据识别成了单独的一列。需要我们自己手动拆分列。
主页 > 拆分列 > 按字符数 > 15
这里拆分的字符数可以根据日期列的字符数进行确定初始值,然后进行调试,找到最佳的拆分字符数。
拆分完后更具规则的数据
04、提升标题
这时我们需要给每列一个有意义的名称,可以看到第一行就是列的标题。因此可以直接使用「将第一列用作标题」提升标题行。
05、更改数据类型
PQ 默认会根据列的数据特征自动更改列的数据类型,然而它并不能每次都准确识别,所以有时我们需要自己更改数据类型。
06、删除错误值
转换数据类型操作后,可以看到列的下方出现了红色的标记,这是 PQ 提醒我们数据列存在错误值,往下拉到第 44 行可以发现错误值。
因为数据类型转换失败导致的错误值
当确认了这些属于无用字符导致的转换失败以后,可以删除错误行。
主页 > 删除行 > 删除错误
07、筛选剔除行
删除错误以后,第一列还有灰色的提示,说明该列还有无用的空行。
可以通过列的筛选功能,剔除空行,选中第一列,筛选取消勾选 (null)。
08、删除列
删除数据中的空列。选中空列,右击鼠标删除列。
09、合并列
处理到这一步数据已经基本清洗干净了。往后看,可以发现有两列在开始按字符数拆分时,被错误的拆开了。
我们可以使用「合并列」功能进行逆操作,「合并列」相当于 Excel 中的连接字符 「&」。
选中以上两列,点击转换> 合并列
弹出的对话框中指定新的列名,点击确定完成合并。
10、按分隔符拆分列
合并的 Reference Information 列包含双重信息,并且可以按照分隔符「 - 」进行拆分。
选中该列,点击转换拆分列 > 按分隔符 > -
学会以上十招,基本也就掌握了PQ 常用的数据清洗功能,只要认真跟着操作一番,相信对 PQ 会有不一样的理解,同时对于文章没有出现的其它数据转换功能也会具备一定的自我探索能力。
也许你会问这些都能在 Excel 中实现,为什么要一定要在 PQ 中处理 ?,在 Excel 中当你面临同样的需求时,所有的导入文本、删除行、合并拆分列,你都需要重新操作一遍。
而在 PQ 中,以上操作都已经被录制下来
(类似宏)
,当你面临同样需求时,只要更改数据源就可以一键执行整个清洗工作。
Excel Tips & Tricks 使用蝴蝶图让数据对比更明显
学会这两个M函数,合并文件更加得心应手
牢记这三点,你也可以高效管理度量值
你的在看
我的动力 !