PowerQuery 中使用 M 语言创建自定义函数爬取天气后报网页

209190509更新
更新原因:实际使用下来有 bug,Power Query 对数据格式非常严格,月份输入不是文本格式会报错。
更新内容:使用 Text.From 函数将月份先转换为文本然后做判断长度和补足两位的操作,修正了 bug;新加步骤转换气温为数字格式;
因为20190508中央气象台出现了0512最高温39度的异常预报,为了证明是错误值,就简单做了一个上海月极值天气的透视表,可以忽略。
某盘文件下载2 4dif

关于月份补足到两位其实 M 语言中有现成的函数可以用,可以参考 Text.PadStart/End 函数简介,但是我懒得改代码了,就依然是原有的 If Else 条件判断。

原文


说明:
excel 2016 最早期的 Power Query 有部分函数不支持,可能无法运行。建议升级到最新。
2010 和 2013 版本的 Power Query 没有测试。
作者有一点儿 Power Query 使用经验,M 语言只学了一天,做了这个模板,所以用这个代码的注意检查数据条数。
懒得写的特别详细,所以不针对一点儿不懂 Power Query 的人。
某盘文件下载 f665

前期思路和准备

要爬的网页信息:天气后报

URL 举例:http://www.tianqihoubao.com/lishi/beijing/month/201904.html

拼音 beijing 用来控制是什么城市,201904 是年月。

这样要爬的 URL 要设置三个变量,城市、年份、月份。理论上年份和月份可以是固定的 2011-2019 ,月份也可以是固定的 01-12 月。 考虑到每次都爬 9 年 12 个月的数据(多城市数据就更多)比较费时间,大部分使用场景可能也不需要看这么久时间的天气数据,就设置可以自定义查询。自定义输入是通过引用 excel 的表实现的。

测试 Excel 表中直接输入年份月份会默认为数字、月份即使输入01,表中也是默认为 1。所以需要通过月份的位数判断是不是要在前面加一位 0 。然后转换年和月为文本格式

测试Excel 表中直接删除数据会形成空行,要求使用者右键删除表行又多了好几步操作,所以需要删选三个表中的空行

城市列表、年份、月份表格样式

上述三个表名称分别为:城市清单、年份、月份。


全部代码

上面三个自定义参数的表设置后,直接复制以下代码到 PowerQuery 的高级编辑器中可以直接保存运行。

let    
    tianqi = (city,year,month)=>Table.PromoteHeaders(Web.Page(Web.Contents("http://www.tianqihoubao.com/lishi/"&city&"/month/"&year&month&".html")){0}[Data], [PromoteAllScalars=true]),
    source = Excel.CurrentWorkbook(){[Name="城市清单"]}[Content],
    添加年份 = Table.AddColumn(source, "yea", each Excel.CurrentWorkbook(){[Name="年份"]}[Content]),
    添加月份 = Table.AddColumn(添加年份, "mont", each Excel.CurrentWorkbook(){[Name="月份"]}[Content]),
    展开年份 = Table.ExpandTableColumn(添加月份, "yea", {"年份"}, {"年份"}),
    展开月份 = Table.ExpandTableColumn(展开年份, "mont", {"月份"}, {"月份"}),
    筛选拼音城市年月列不为空 = Table.SelectRows(展开月份, each [cit] <> null and [年份] <> null and [月份] <> null),
    判断月份是否要加0 = Table.AddColumn(筛选拼音城市年月列不为空, "月份2", each if Text.Length([月份]) = 1 then "0"&[月份] else [月份]),
    更改年月列为文本 = Table.TransformColumnTypes(判断月份是否要加0,{{"年份", type text}, {"月份2", type text}}),
    添加网页表格 = Table.AddColumn(更改年月列为文本, "data", each tianqi([cit],[年份],[月份2])),
    展开网页表格 = Table.ExpandTableColumn(添加网页表格, "data", {"日期", "天气状况", "气温", "风力风向"}, {"日期", "天气状况", "气温", "风力风向"}),
    拆分天气列 = Table.SplitColumn(展开网页表格, "天气状况", Splitter.SplitTextByDelimiter("/", QuoteStyle.Csv), {"白天天气", "夜间天气"}),
    拆分气温列 = Table.SplitColumn(拆分天气列, "气温", Splitter.SplitTextByDelimiter("/", QuoteStyle.Csv), {"最高气温", "最低气温"}),
    拆分风向列 = Table.SplitColumn(拆分气温列, "风力风向", Splitter.SplitTextByDelimiter("/", QuoteStyle.Csv), {"白天风向", "夜晚风向"}),
    删除摄氏度单位 = Table.ReplaceValue(拆分风向列,"℃"," ",Replacer.ReplaceText,{"最高气温", "最低气温"}),
    日期列变更为日期格式 = Table.TransformColumnTypes(删除摄氏度单位,{{"日期", type date}}),
    筛选日期为小于等于当前日期 = Table.SelectRows(日期列变更为日期格式, each [日期] <= DateTime.Date(DateTime.LocalNow())),
    删除的列 = Table.RemoveColumns(筛选日期为小于等于当前日期,{"cit", "年份", "月份", "月份2"})
in
    删除的列

代码分步骤解释

  1.    tianqi = (city,year,month)=>Table.PromoteHeaders(Web.Page(Web.Contents("http://www.tianqihoubao.com/lishi/"&city&"/month/"&year&month&".html")){0}[Data], [PromoteAllScalars=true]),
    

这里在开头创建了一个自定义函数 tianqi,参数有三个 city,year, month 。使用 Web.Page 来获得网页表格,Table.PromoteHeaders 用来将第一行用作标题。
网页表格,抓起来一般是没有标题的,column1、column2 的类似标题,如果爬出来之后再提升标题,前面已经设置好标题的列会因为标题提升失去固定的标题。

  1.  source = Excel.CurrentWorkbook(){[Name="城市清单"]}[Content],
     添加年份 = Table.AddColumn(source, "yea", each Excel.CurrentWorkbook(){[Name="年份"]}[Content]),
     添加月份 = Table.AddColumn(添加年份, "mont", each Excel.CurrentWorkbook(){[Name="月份"]}[Content]),
     展开年份 = Table.ExpandTableColumn(添加月份, "yea", {"年份"}, {"年份"}),
     展开月份 = Table.ExpandTableColumn(展开年份, "mont", {"月份"}, {"月份"}),
    

按照三个 excel 表名称添加展开三个自定义参数的表。这几个步骤运行完的结果:


添加城市、年、月之后
  1.  筛选拼音城市年月列不为空 = Table.SelectRows(展开月份, each [cit] <> null and [年份] <> null and [月份] <> null),
     判断月份是否要加0 = Table.AddColumn(筛选拼音城市年月列不为空, "月份2", each if Text.Length([月份]) = 1 then "0"&[月份] else [月份]),
     更改年月列为文本 = Table.TransformColumnTypes(判断月份是否要加0,{{"年份", type text}, {"月份2", type text}}),
    

如步骤名称,是开头提过的要对三个参数源表的处理。运行结果:


参数处理
  1.  添加网页表格 = Table.AddColumn(更改年月列为文本, "data", each tianqi([cit],[年份],[月份2])),
     展开网页表格 = Table.ExpandTableColumn(添加网页表格, "data", {"日期", "天气状况", "气温", "风力风向"}, {"日期", "天气状况", "气温", "风力风向"}),
    

使用开头声明的自定义函数添加一列,然后展开列中表格包含的每一列。


初步数据抓取

到这一步,抓取数据的部分就做完了,接下来是正常使用 Power Query 处理数据的部分。

  1.  拆分天气列 = Table.SplitColumn(展开网页表格, "天气状况", Splitter.SplitTextByDelimiter("/", QuoteStyle.Csv), {"白天天气", "夜间天气"}),
     拆分气温列 = Table.SplitColumn(拆分天气列, "气温", Splitter.SplitTextByDelimiter("/", QuoteStyle.Csv), {"最高气温", "最低气温"}),
     拆分风向列 = Table.SplitColumn(拆分气温列, "风力风向", Splitter.SplitTextByDelimiter("/", QuoteStyle.Csv), {"白天风向", "夜晚风向"}),
    

这里是拆分原表的列,Power Query 的内建函数 Table.SplitColumn 似乎没办法一次拆分多个列,原默认代码中的拆分后列名为 天气状况.1 和 天气状况.2,这里就是一个重命名的设置,为了减少步骤,这里我自定义了拆分后列名。

拆分后
  1.  删除摄氏度单位 = Table.ReplaceValue(拆分风向列,"℃"," ",Replacer.ReplaceText,{"最高气温", "最低气温"}),
    

拆分后的气温包含摄氏度单位,这里使用替换为 null 的方式删除符号。


温度符号处理
  1.  日期列变更为日期格式 = Table.TransformColumnTypes(删除摄氏度单位,{{"日期", type date}}),
     筛选日期为小于等于当前日期 = Table.SelectRows(日期列变更为日期格式, each [日期] <= DateTime.Date(DateTime.LocalNow())),
    

原网页中的数据如果是超过当前日期也会抓出来空白的内容,所以这列做了一个条件筛选,筛选日期小于等于查询运行当天日期的行。原抓出来的日期列为文本,这里先转换为日期格式,然后做筛选。

M 语言中没有工作表函数 now() 来表示当前时间,表示当前日期(不含时间)是 DateTime.Date(DateTime.LocalNow())

日期筛选前

  1.  删除的列 = Table.RemoveColumns(筛选日期为小于等于当前日期,{"cit", "年份", "月份", "月份2"})
    

删除无用的列。

删除前

删除后

加载到 excel 工作表的数据

最后结果

参考:
1.excelhome 上网友分享教程
2.pqfans 自定义函数文章

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 222,000评论 6 515
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 94,745评论 3 399
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 168,561评论 0 360
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,782评论 1 298
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,798评论 6 397
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 52,394评论 1 310
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,952评论 3 421
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,852评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 46,409评论 1 318
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,483评论 3 341
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,615评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 36,303评论 5 350
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,979评论 3 334
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,470评论 0 24
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,571评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 49,041评论 3 377
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,630评论 2 359