【缘起】
最近遇到一个问题:把数据导入PowerBI进行清洗时,需要对某列的文本按照一定条件进行筛选,而这个筛选条件必须由使用模板的人来确定,而不是我来确定;或者说,筛选条件必须临时快速确定下来。这样一来,我无法事先在PowerQuery中确定筛选条件究竟有哪些。
【解决思路】
研究PowerQuery中多条件筛选的语句,发现是用关键字“and”或“or”来连接的,从集合观点来看,“and”就是取多个集合的交集,“or”就是取多个集合的并集。因此,如果我们得到每个筛选词的结果(单个集合),理论上就可以得出它们的交集或并集。
由于筛选词目前无法确定,所以它是一个动态的未知数,它获取的结果也是动态的,这正好符合函数特征。因此,我们将每一次筛选过程抽象为一个函数fnFilter()。
构造这个fnFilter()函数很简单:在常规查询中,任意选定一个符合业务目标的筛选词,筛选出结果,对结果进行相应处理,最后将其转化为函数,把筛选词用filter代替,以作为fnFilter()的参数。
接下来,我们需要找到一个能够随时输入或更改多个筛选词的办法。在Power BI Desktop中,提供了一个“输入数据”的功能,可以在一个表格中手动输入(或粘贴)临时数据,因此我们用这个功能来构造筛选条件。只保留一列,列名为“筛选条件”。
随意输入几行文本作为筛选条件,然后新增一列:
= Table.AddColumn(Source, "Custom", each fnFilter([筛选条件]))
注意“Source”是指我们上一步手动输入的筛选条件。这样为每一个筛选条件生成了一个筛选结果。
到这一步,成功了一大半,但是前路依然艰难,因为根据我们想要的结果——交集还是并集——的不同,处理方法和难度完全不一样。
如果我们需要用“and”来获取筛选结果的交集,则需要将筛选结果进行innerjoin的操作,需要两两进行,这意味着有n个筛选条件,就要执行n-1次innerjoin的操作,太复杂,还不如放弃,直接在PowerQuery的界面进行筛选操作。
如果我们需要用“or”来获取筛选结果的并集,就很简单了。由于fnFilter()函数产生的新列,每一行都是一个表格,所以可以直接点击列名旁边的展开符号,将表格展开,这样就将所有筛选结果合并起来了。为了保险起见,最后全选表格,剔除重复值,完毕。
接下来要做的是,教会使用者如何对手动输入数据的表格里的筛选条件进行增删改操作:在手动输入数据后生成的查询的第一步,点击旁边的齿轮符号,就会弹出用于输入数据的表格,可以对其中的筛选条件进行增删改操作。
修改完操作条件后,记得保存,然后刷新。完毕。
【延伸】
从理想角度而言,终端用户要筛选数据,完全可以在PowerBI报告中自己筛选,不用在数据清洗阶段就介入。但是目前PowerBI报告层面要对某个字段进行多条件筛选,受到很大局限——无论是并集还是交集,都只能添加两个筛选条件,当同一个字段所需的筛选条件多余两个时,就没辙了,还是只能回到PowerQuery中去。
另,如果用Excel来处理这个问题,就更简单了:利用链接表格来控制筛选条件,然后刷新即可。绝大多数人对Excel的熟悉程度远超PowerBI Desktop。由于思路和基本操作都一样,不赘述。