本文主要跟着<DAX Patterns> (2015)一书整理一下DAX的相关知识,用自己的语言描述一边,加深理解。
Learning by doing is the only way.
DAX的意思是Data Analysis eXpression,即“数据分析表达式”,用于微软家的Excel(PowerPivot), PowerBI, 原来的SQLServer Analysis/Report Service(这两个Service我也没用过,只是很多资料提到,现在似乎也合并到PowerBI发展路径里面了),是这些产品内置支持的数据分析语言。
DAX语法
说一门语言(不论自然语言还是计算机语言),从基础语法说起,首先开宗明义:
一个DAX表达式返回一个table,或者返回一个scalar value。这个table可以有零行和零列。这一点对后面理解一些函数的用法非常有用。
一个DAX表达式有3种用途,用于定义度量值(measure),用于定义自定义计算列(calculated column),现在随着PowerBI的出现,度量值还可以用于定义一个table。DAX的分析能力主要通过使用度量值来实现,但是随着PowerBI的不断更新,度量值现在不只可以做数据分析,还可以用来控制可视化。
DAX支持的数据类型
类比C,Python等传统编程语言,DAX支持的数据类型有几类:
- Integer
- Real
- Currency
- Date(datetime)
- TRUE/FALSE
- String
- BLOB(binary large object)
除了BLOB比较特殊,其他都大同小异,只是说法有一些不同,比如常见的float/double说成real,decimal是currency(也许是因为decimal经常用来存储currency吧)。
作为面向业务分析人员的语言,不出意外类型可以自动转换,但需要注意转换中包含的约定或者特殊含义。
datetime类型使用浮点数(real)来存储,浮点数的整数部分对应整天,整数1表示1天,小数部分表示一天的一部分。因此,datetime类型和real类型可以自动转换,比如:
=NOW() + 0.5
表示增加0.5天的时间。
操作符
加减乘除,大于小于这些和Excel一模一样,多了一些有编程语言特色的逻辑运算符 &&
和 ||
。
空值(缺失值)
DAX里面的空值(empty value)和缺失值(missing value)是一回事,用BLANK表示,可以通过BLANK()函数获取到这个值。
DAX表达式中,BLANK遇到整数成0,遇到字符串成空字符串。
将BLANK作为返回结果经常用于控制度量值的行为
条件语句
DAX是一门functional language,所谓条件语句,就是条件函数。
IF()
说起条件判断,首先想到就是Excel中的IF函数,DAX中最常用最基础的也是IF函数。两者用法基本一样,只是在Excel中,如果省略IF的第3个函数,条件为假时返回FALSE
,而DAX在这种情况下返回BLANK
。
SWITCH()
再想想,Excel VBA里面还有一个SWITCH函数可以做条件判断,DAX中也有。(现在Excel 2019也内置这个函数了,用法和DAX一样)
SWITCH有两种经典用法:
第一种:
SWITCH (
CUSTOMER[Status], //第一个参数,被evaluated的
"A","Platinum", //成对出现的参数
"B","Gold",
"C","Silver",
"D","White",
"None" //兜底的参数,前面成对出现的参数中第一个参数都不匹配的话,就返回这个
)
第二种:
SWITCH (
TRUE(),
Products[UnitPrice] < 10, "Low",
Products[UnitPrice] < 50, "Medium",
Products[UnitPrice] < 100, "HIGH",
"Very High"
)
第一种用于判断出单点值,第二种用于判断出区间。
ISBLANK()/ISERROR()
顾名思义,no surprise.
DAX计算类型
DAX表达式可以用来定义度量值,计算列,和查询。