
Hive 版本 2.1.1

一.Hive 正则表达式概述



  1. regexp
  2. regexp_extract
  3. regexp_replace

1.1 字符集合:

字符 匹配的字符
\d 从0-9的任一数字
\D 任一非数字字符
\w 任一单词字符,包括A-Z,a-z,0-9和下划线
\W 任一非单词字符
\s 任一空白字符,包括制表符,换行符,回车符,换页符和垂直制表符
\S 任一非空白字符
. 任一字符


 [[:alpha:]] 任何字母。
 [[:digit:]] 任何数字。
 [[:alnum:]] 任何字母和数字。
 [[:space:]] 任何空白字符。
 [[:upper:]] 任何大写字母。
 [[:lower:]] 任何小写字母。
 [[:punct:]] 任何标点符号。
 [[:xdigit:]] 任何16进制的数字,相当于[0-9a-fA-F]。

1.2 边界集合:

字符 l 描述
^ 每一行的开头,单行模式下等价于字符串的开头
$ 每一行的结尾,单行模式下等价于字符串的结尾

1.3 重复次数集合:


贪婪 非贪婪 描述
* *? 零次或多次
? ?? 零次或一次
+ +? 一次或多次
{m} {m}? 正好m次,贪婪与非贪婪一样的
{m,} {m,}? 至少m次
{m, n} {m, n}? 最少m最多n次

1.4 组合操作符:


组合操作符 描述
[…] 方括号内任意字符或字符集合中的一个
[^…] 方括号内^为第一个字符时,表示与其后所有字符都不匹配的字符
(…) 圆括号,将复杂表达式当作单一表达式来处理
abc 和。直接将字符连在一起写

1.5 匹配操作符:

匹配操作符 描述
\n 即后向引用。n为1~9,标识由圆括号里取得的匹配字符串。方向是从左到右在regexp_replace函数中,允许在模式表达式和替换表达式中都使用\n

1.6 转义操作符:

转义操作符 描述
\ 将其后紧跟着的操作字符当作普通字符看待。例如 abcdef 可以匹配 abdef或abcccdef等,但无法匹配 abcdef,后者需要abc*def才能匹配

二.Hive 正则表达式案例

2.1 regexp



如果字符串A或者字符串B为NULL,则返回NULL;如果字符串A符合表达式B 的正则语法,则为TRUE;否则为FALSE。B中字符”_”表示任意单个字符,而字符”%”表示任意数量的字符。


-- 匹配有8个连续数字的字符串
with tmp1 as
select '11145678abc' as rn
union all
select '111456789abc'
union all
select 'd111456789abc'
select rn
  from tmp1
 where rn regexp '\\d{8}';

-- 匹配开头有8个及以上连续数字的字符
with tmp1 as
select '11145678abc' as rn
union all
select '111456789abc'
union all
select 'd111456789abc'
select rn
  from tmp1
 where rn regexp '^\\d{8}';

-- 匹配开头只有8个连续数字的字符
with tmp1 as
select '11145678abc' as rn
union all
select '111456789abc'
union all
select 'd111456789abc'
select rn
  from tmp1
 where rn regexp '^\\d{8}\\D';


    > -- 匹配有8个连续数字的字符串
    > with tmp1 as
    > (
    > select '11145678abc' as rn
    > union all
    > select '111456789abc'
    > union all
    > select 'd111456789abc'
    > )
    > select rn
    >   from tmp1
    >  where rn regexp '\\d{8}';
2.2 regexp_replace


regexp_replace(string INITIAL_STRING, string PATTERN, string REPLACEMENT)

返回用替换实例替换INITIAL_STRING中与模式中定义的java正则表达式语法匹配的所有子字符串所产生的字符串。例如,regexp_replace("foobar", "oo|ar", "")返回'fb。'注意,在使用预定义字符类时需要注意:使用'\s'作为第二个参数将匹配字母s;'\s'必须匹配空格,等等。


create table test_reg(id int,str string);

insert into test_reg values (1,'我在学习Hive,大数据。');
insert into test_reg values (2,'Hive,我来了,Coming666。');
insert into test_reg values (3,'666,Hive居然拥有关系型数据库的诸多特性。');
insert into test_reg values (4,'wuwuwu,Hive学习起来还是存在一定难度。');
insert into test_reg values (5,'Hive数据仓库,6666。');

2.2.1 截取字符串中汉字部分


select id,regexp_replace(str,'([^\\u4E00-\\u9FA5]+)','') new_str
  from test_reg;


    > select id,regexp_replace(str,'([^\\u4E00-\\u9FA5]+)','') new_str
    >   from test_reg;
2.2.2 截取字符串中数字部分


select id,regexp_replace(str,'([^0-9]+)','') new_str
  from test_reg;


    > select id,regexp_replace(str,'([^0-9]+)','') new_str
    >   from test_reg;
2.2.3 截取字符串中字母部分


select id,regexp_replace(str,'([^a-zA-Z]+)','') new_str
  from test_reg;


    > select id,regexp_replace(str,'([^a-zA-Z]+)','') new_str
    >   from test_reg;
2.2.4 截取字符串中的大小写字母和数字


select id,regexp_replace(str,'([^a-zA-Z0-9]+)','') new_str
  from test_reg;


2.3 regexp_extract


regexp_extract(string subject, string pattern, int index)

返回使用模式提取的字符串。例如,regexp_extract('foothebar', 'foo(.*?)(bar)', 2)返回'bar '。'注意,在使用预定义字符类时需要注意:使用'\s'作为第二个参数将匹配字母s;'\s'必须匹配空格,等等。


create table test_reg2(id int,str string);
insert into test_reg2 values (1,'{"filtertype":"29","filtername":"成人Node","filtertitle":"成人Group","filtersubtype":"","filterid":"29|1","filterValue":"1|4"}');
insert into test_reg2 values (2,'{"filtertitle":"钻级","filtertype":"16","filtersubtype":"","filtername":"四钻/高档","filterid":"16|4",}');


select id
      ,regexp_extract(str,'(filtertype"\\:")(\\d+)(",)',2)               as filtertype
      ,regexp_extract(str,'(filtername"\\:")((\\W*\\w*)|(\\W*))(",)',2)  as filtername
      ,regexp_extract(str,'(filtertitle"\\:")((\\W*\\w*)|(\\W*))(",)',2) as filtertitle
      ,regexp_extract(str,'(filterid"\\:")(\\d+\\|\\d+)(",)',2)          as filterid
 from test_reg2;


