数据准备时,我们经常会遇到需要拆分的字段。对于比较简单规整的字段,可以用 split() 函数进行拆分。
但是,如果遇到较复杂的情况(如下图):没有固定的长度,分隔字符不固定,分隔字符的数量也不固定。用普通的拆分方法,需要重复很多次,费时费力。
对于这种复杂字段,有办法快速拆分么?有的,试试 Tableau Prep 正则表达式的字符串处理方法吧!
本期《举个栗子》,我们要给大家分享的 Tableau 技巧是:用 Prep 正则表达式拆分复杂字段。
为方便学习,栗子使用自备的上述示例数据。掌握栗子方法后,数据粉可尝试使用自己的数据源。懒癌患者可通过以下链接获取栗子数据源:
https://www.dkmeco.com/cms/course/detail/535?suid=5
具体步骤如下:
01 、创建自定义计算替换字符
打开 Tableau Prep 连接栗子数据源“复杂拆分”,新建一个清理步骤:单击数据表右侧
按钮,下拉菜单选择:+ 清理步骤。
首先,需要将多种分隔符号统一替换成可自动拆分的半角符号。
单击“待拆分字段”右上角
符号,下拉菜单选择:创建计算字段-自定义计算。使用 REGEXP_REPLACE() 函数,按照正则表达式对字段进行拆分。
Tips:REGEXP_REPLACE 函数的作用是把字段中符合正则表达式的字符,替换成指定的字符。有三个接收的参数,分别是 REGEXP_REPLACE(<待处理的字段名称>,<正则表达式>,<替换成字符>)。
将计算字段命名为:拆分字段,键入函数
REGEXP_REPLACE([待拆分字段], "[,, |分数]+", ",")
计算说明:示例中的正则表达式’[,,| 分数]+’,意思是匹配 [] 内的任意字符,匹配次数可以是 1 次或多次。连起来的意思是把“待拆分字符串”中包含的任意数量的表达式字符,替换成为半角符号。
计算应用保存后,可以看到替换效果如下:
02 、拆分字段
单击“拆分字段”右上角
符号,下拉菜单选择:拆分值-自动拆分。
如此,就完成了我们想要的字段拆分结果。
今天的 Tableau 技巧,你 Get 到了吗?赶快试试看吧!
下一期《举个栗子》,再会~
文章部分信息来源于网络,如有侵权请告知