文本分析在Spark开发中非常常见,而正则表达式又是文本分析中的重要工具,因此对一些常用正则表达式进行总结:
\\s Whitespace 空格
\\s+ Whitespace(s) 一个或多个空格
[0-9] 任何数字
\\d 任何数字
\\d{3} 3个任何数字
\\d{3,} 3个或更多任何数字
[a-z] 任何小写字母
[A-Z] 任何大写字母
[^0-9] 只要不是数字都可以