文本分析在Spark开发中非常常见,而正则表达式又是文本分析中的重要工具,因此对一些常用正则表达式进行总结:
\\s
Whitespace 空格
\\s+
Whitespace(s) 一个或多个空格
[0-9]
任何数字
\\d
任何数字
\\d{3}
3个任何数字
\\d{3,}
3个或更多任何数字
[a-z]
任何小写字母
[A-Z]
任何大写字母
[^0-9]
只要不是数字都可以