PowerQuery格式化数据一例

需求

如下图示,同事传来一个表格,有1200多行,课程序号、系列和课程名称均是合并单元格(截图中我已经打散),时间列包含“11|13”(分|秒)、“——”(无时间数据)和“4.5”(分钟)这样的数字。



要求整理成如下格式:
将每个课程下面的若干课件合并到一行,用“|”隔开;
将每个课程若干课件的时间累加,并处理成“分|秒”格式,如下图:

分析

首先需要将合并单元格打散,这个引入数据源之后,PowerQuery会自动拆分合并单元格;
其次要将原来合并单元格拆散后留下的空白单元格填充对应的内容,在课程序号、课程序列和课程名称三个列用“向下填充”即可。
然后要将时间列按照“|”拆分出分钟和秒钟来。
利用分组(group by)功能将同一个课程的若干课件放到一个嵌套表格中,并计算该课程各课件的时间之和。
把嵌套表格中的各行用“|”串起来,形成与课程序号、课程系列和课程名称同行的一行。
用“|”处理时间。

我主要卡在第五步。后来终于试验摸索出来。最后形成了两套代码。

摸索版代码

let
源 = Excel.CurrentWorkbook(){[Name="表1"]}[Content],
删除的列 = Table.RemoveColumns(源,{"形式", "列1"}),
向下填充 = Table.FillDown(删除的列,{"课程序号", "系列", "课程名称"}),
按分隔符拆分列 = Table.SplitColumn(Table.TransformColumnTypes(向下填充, {{"时间", type text}}, "zh-CN"), "时间", Splitter.SplitTextByDelimiter("|", QuoteStyle.Csv), {"时间.1", "时间.2"}),
按分隔符拆分列1 = Table.SplitColumn(按分隔符拆分列, "时间.1", Splitter.SplitTextByDelimiter(".", QuoteStyle.Csv), {"时间.1.1", "时间.1.2"}),
更改的类型 = Table.TransformColumnTypes(按分隔符拆分列1,{{"时间.1.2", Int64.Type}, {"时间.2", Int64.Type}}),
已添加自定义 = Table.AddColumn(更改的类型, "自定义", each [时间.1.2]/10*60),
删除的列1 = Table.RemoveColumns(已添加自定义,{"时间.1.2"}),
合并的列 = Table.CombineColumns(Table.TransformColumnTypes(删除的列1, {{"时间.2", type text}, {"自定义", type text}}, "zh-CN"),{"时间.2", "自定义"},Combiner.CombineTextByDelimiter("", QuoteStyle.None),"秒"),
重命名的列 = Table.RenameColumns(合并的列,{{"时间.1.1", "分"}}),
更改的类型1 = Table.TransformColumnTypes(重命名的列,{{"分", Int64.Type}, {"秒", Int64.Type}}),
分组的行 = Table.Group(更改的类型1, {"课程序号", "系列", "课程名称"}, {{"分", each List.Sum([分]), type text}, {"秒", each List.Sum([秒]), type text}, {"返回所有行", each _, type table}}),
替换的值 = Table.ReplaceValue(分组的行,null,"0",Replacer.ReplaceValue,{"秒"}),
更改的类型2 = Table.TransformColumnTypes(替换的值,{{"分", Int64.Type}, {"秒", Int64.Type}}),
已添加自定义1 = Table.AddColumn(更改的类型2, "新分", each if [秒]>60 then [分]+Number.RoundDown([秒]/60) else[分]),
已添加自定义2 = Table.AddColumn(已添加自定义1, "新秒", each if [秒]>60 then [秒]-([新分]-[分])*60 else [秒]),
删除的列2 = Table.RemoveColumns(已添加自定义2,{"分", "秒"}),
合并的列1 = Table.CombineColumns(Table.TransformColumnTypes(删除的列2, {{"新分", type text}, {"新秒", type text}}, "zh-CN"),{"新分", "新秒"},Combiner.CombineTextByDelimiter("|", QuoteStyle.None),"时间"),
已添加自定义3 = Table.AddColumn(合并的列1, "自定义", each Table.SelectColumns([返回所有行],"课件名称")),
已添加自定义4 = Table.AddColumn(已添加自定义3, "自定义.1", each [自定义][课件名称]),
提取值 = Table.TransformColumns(已添加自定义4, {"自定义.1", each Text.Combine(List.Transform(_, Text.From), "|"), type text}),
删除的列3 = Table.RemoveColumns(提取值,{"返回所有行", "自定义"}),
重排序的列 = Table.ReorderColumns(删除的列3,{"课程序号", "系列", "课程名称", "自定义.1", "时间"})
in
重排序的列

但是我觉得这个处理方式太笨拙,因为我不怎么会用Table.TransformColumns()和“_”,而且明显对函数不熟。强迫自己继续学习,最终形成了更简洁的第二套代码。

简化版代码

let
源 = Excel.CurrentWorkbook(){[Name="表1"]}[Content],
删除的列 = Table.RemoveColumns(源,{"形式", "列1"}),
向下填充 = Table.FillDown(删除的列,{"课程序号", "系列", "课程名称"}),
更改的类型 = Table.TransformColumnTypes(向下填充,{{"时间", type text}}),
时间换算为秒 = Table.TransformColumns(更改的类型,
        {{
            "时间",
                    each if 
                        Text.Contains(_,"|") 
                    then 
                         Number.From(Text.Start(_,Text.PositionOf(_,"|")))*60+Number.From(Text.End(_,Text.Length(_)-1-Text.PositionOf(_,"|")))
                     else 
                        Number.From(_)*60
      }}
),
同一个课程的课件聚合 = Table.Group(时间换算为秒, {"课程序号", "系列", "课程名称"}, {{"时间", each List.Sum([时间]), type number}, {"返回行", each Table.SelectColumns(_,"课件名称"), type table}}),
提取课件名称列 = Table.TransformColumns(同一个课程的课件聚合, {"返回行", each Text.Combine(List.Transform(_[课件名称], Text.From), "|"), type text}),
重排序的列 = Table.ReorderColumns(提取课件名称列,{"课程序号", "系列", "课程名称", "返回行", "时间"}),
#"把时间转换成“分|秒”格式" = Table.TransformColumns(重排序的列,{"时间",each Number.ToText(Number.IntegerDivide(_,60))&"|"&Number.ToText(Number.Mod(_,60))})
in
#"把时间转换成“分|秒”格式"

方法二要复杂些,但相对要简单些,而且不容易出错。事实上,我用代码一摸索的时候,时间计算就出了错,最后得出了27|60这样的结果。

反思

自己的主要弱项在于:一是对函数不熟,二是很不会用Table.TransformColumns()和“”,往往只会笨拙地通过添加列来实现目的。所以,通过这个例子,无疑强化了自己对列变换、each和“”的熟练程度。
是为记。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,047评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,807评论 3 386
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,501评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,839评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,951评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,117评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,188评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,929评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,372评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,679评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,837评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,536评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,168评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,886评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,129评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,665评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,739评论 2 351

推荐阅读更多精彩内容

  • 国家电网公司企业标准(Q/GDW)- 面向对象的用电信息数据交换协议 - 报批稿:20170802 前言: 排版 ...
    庭说阅读 10,934评论 6 13
  • 翻译自“Collection View Programming Guide for iOS” 0 关于iOS集合视...
    lakerszhy阅读 3,850评论 1 22
  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 171,885评论 25 707
  • 转自链接 目录 1.认识NPOI 2.使用NPOI生成xls文件 2.1创建基本内容 2.1.1创建Workboo...
    腿毛裤阅读 10,506评论 1 3
  • EXCEL小白的进阶之路 从16年3月申请的小号,到现在发表的微文,屈指可数,纠结于想要好的内容,好的页面排版,然...
    Rachelhaha阅读 934评论 0 0