数据清洗很神秘?其实你每天都在重复做,学会这十招帮你摆脱重复

生如夏花之绚烂,死如秋叶之静美。

数据清洗听起来很神秘,其实每一个职场人在用 Excel 的时候几乎都会重复的在做。在数据真正能为我们所用之前,对数据删除空行空列、清除空格打印字符、分列、替换等都是数据清洗过程。

将杂乱无章的数据整理成有规则的、可供分析的过程,可以称之为「数据清洗」

导入 Power Query 查询编辑器的数据如下,我们通过菜单中的 10 个功能进行数据清洗。

Ch07 Examples\GL Jan-Mar

01、删除行

导入数据的前10行都是无用的标题行,可以使用 Power Query 主页提供的「删除行」功能进行删除。

PQ提供了丰富的删除行操作,这里我们选择:删除最前面的几行  > 10 >  确定。


02、修整和清除

现在数据看起来规整多了,但是我们仔细观察可以看到列的两边有多余的空格,同时还有一些打印字符需要将其清除。

选中列,在转换选项卡下,格式功能中可以找到「修整」和「清除」。

在 Excel 中有 Trim() 及 Clean() 函数可以将前导、尾随及中间多余的空白单元格删除

(字符中间仅保留一个单元格)

。不同的是,PQ的「修整」功能并不能删除字符中间多余的空格。

03、按字符数拆分列

和 Excel 的拆分列功能相似,我们可以看到 PQ 将数据识别成了单独的一列。需要我们自己手动拆分列。

主页 > 拆分列 > 按字符数 > 15

这里拆分的字符数可以根据日期列的字符数进行确定初始值,然后进行调试,找到最佳的拆分字符数。

拆分完后更具规则的数据

04、提升标题

这时我们需要给每列一个有意义的名称,可以看到第一行就是列的标题。因此可以直接使用「将第一列用作标题」提升标题行。

05、更改数据类型

PQ 默认会根据列的数据特征自动更改列的数据类型,然而它并不能每次都准确识别,所以有时我们需要自己更改数据类型。

06、删除错误值

转换数据类型操作后,可以看到列的下方出现了红色的标记,这是 PQ 提醒我们数据列存在错误值,往下拉到第 44 行可以发现错误值。

因为数据类型转换失败导致的错误值

当确认了这些属于无用字符导致的转换失败以后,可以删除错误行。

主页  > 删除行 >  删除错误


07、筛选剔除行

删除错误以后,第一列还有灰色的提示,说明该列还有无用的空行。



可以通过列的筛选功能,剔除空行,选中第一列,筛选取消勾选 (null)。


08、删除列


删除数据中的空列。选中空列,右击鼠标删除列。


09、合并列

处理到这一步数据已经基本清洗干净了。往后看,可以发现有两列在开始按字符数拆分时,被错误的拆开了。

我们可以使用「合并列」功能进行逆操作,「合并列」相当于 Excel 中的连接字符 「&」。


选中以上两列,点击转换> 合并列



弹出的对话框中指定新的列名,点击确定完成合并。

10、按分隔符拆分列


合并的 Reference Information 列包含双重信息,并且可以按照分隔符「 - 」进行拆分。

选中该列,点击转换拆分列 > 按分隔符 > -


学会以上十招,基本也就掌握了PQ 常用的数据清洗功能,只要认真跟着操作一番,相信对 PQ 会有不一样的理解,同时对于文章没有出现的其它数据转换功能也会具备一定的自我探索能力。

也许你会问这些都能在 Excel 中实现,为什么要一定要在 PQ 中处理 ?,在 Excel 中当你面临同样的需求时,所有的导入文本、删除行、合并拆分列,你都需要重新操作一遍。

而在 PQ 中,以上操作都已经被录制下来

(类似宏)

,当你面临同样需求时,只要更改数据源就可以一键执行整个清洗工作。


Excel Tips & Tricks 使用蝴蝶图让数据对比更明显

学会这两个M函数,合并文件更加得心应手

牢记这三点,你也可以高效管理度量值

你的在看

我的动力 !

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,904评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,581评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,527评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,463评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,546评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,572评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,582评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,330评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,776评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,087评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,257评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,923评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,571评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,192评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,436评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,145评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,127评论 2 352