hive解析、处理复杂类型Map、Array、Json

链表.jpg

Hive中Map类型的操作

map的结构

  • 创建map的表

    create table temp_db.map_test(
       id int comment "源数据主键id"
      ,smap map<string,string> comment "string型map"
      ,imap map<string,int> comment "int型map"
      );
    

    map的存储形式:key-value,如:{“张三”,23,“性别“,"male"}

  • 插入map数据

    insert into temp_db.map_test(id,smap,imap) 
    select 12,map('姓名','张三') as pp,map('年龄',23,'性别',1) as dd;
    
    insert into temp_db.map_test(id,smap,imap)
    select 14,map('地址','安徽') as dd,map('年级',3);
    
    -- 注意,这里的map引用使用"()",有时候会错误写成"{}";此外,对于key-value值来说,是没有特定的限制的。key可以有多个。如上"姓名","地址"
    
  • 查询map中的数据

    -- ***[key]
    select smap['姓名'] as arg1,imap['年龄'] as age
    from temp_db.map_test;
    
  • 删除map数据

    别搞笑了,hive不支持删除操作。可以使用insert overwrite。同理,也不支持修改

map的一些操作函数

  • key键查询

    -- map_keys(colName)  结果是一个Array,如果希望提取,则使用[index],如map_keys(smap)[0]
    -- hive和prest的index起点存在差异,hive从0开始,presto从1开始【我测试的环境是这样的】
    select map_keys(smap) as smap_keys,map_keys(imap) as imap_keys
    from temp_db.map_test;
    
  • value值查询

    -- map_values(colname)
    select map_values(smap) as s_values,map_values(imap) as i_values
    from temp_db.map_test;
    
    
  • 键值对查询

    -- size(colName),返回对应列有多少个key-value
    select size(imap) as pair_cnt
    from temp_db.map_test;
    

map类型数据的加工

  • 将map列拆分为key、value列

    -- smap中只存在单个key-value的情况,所有lateral之后,数据有单列变成双列。但是行数没有变化
    select id,skey,svalue
    from temp_db.map_test
    lateral view explode(smap) tb as skey,svalue;
    
    -- imap中 存在多个键值对。这顿操作之后,行数会增加
    select id,ikey,ivalue
    from temp_db.map_test
    lateral view explode(imap) tb as ikey,ivalue;
    

Array操作

Array的结构

  • 创建Array表

    create table temp_db.array_test
    (
     id int comment '源数据主键id'
    ,year_arr array<string> comment '数组记录,年份'
    ,score_arr array<string> comment '数组记录,分数'
    );
    
  • 插入数据

    insert into  temp_db.array_test (id,year_arr,score_arr)
    select 12,array('1991','1990','1989'),array('56','20','23')
    ;
    
  • 查询

    -- 注意事项,如果数组越界了,则报错。
    select id,year_arr[1],year_arr[2]
    from temp_db.array_test
    

Array的一些操作

  • 是否包含某个值(array_contains()),Boolean型(true/false,where条件中比较合适)

    select *
    from temp_db.array_test
    where array_contains(year_arr,'1990');
    
  • 拆成单条多行记录

    select col1
    from temp_db.array_test
    lateral view explode(year_arr) tb as col1
    

Json的操作

在处理日志数据时,会遇到json格式的数据。那么,在hive中如何处理它呢?

一般情况下,json数据会以string类型,字符串格式进行存储。

  • 创建案例

    create table temp_db.json_test
    (id int comment '源数据库id主键',
     str string comment '日志字符串');
    
    insert into temp_db.json_test(id,str)
    values (1,'{"name":"孙先生","carrer":"大数据开发工程师","dream":["开个便利店","去外面逛一逛","看本好书"],"friend":{
           "friend_1":"MM",
           "friend_2":"NN",
           "friend_3":"BB",
           "friend_4":"VV"
           }
            }');
    insert into temp_db.json_test(id,str)
    values (2,'{"name":"唐女士","carrer":"退休农民","dream":["儿子听话","带孙子"],"friend":{
           "friend_1":"CC"
           }
          }');
           
    
  • json_tuple提取数据

    -- 提取一级格式下的数据
    select name 
    from temp_db.json_test 
    lateral view json_tuple(str,'name') tb as name;
    
    -- 提取二级格式下的数据(如好友1)
    select good_friend_1
    from temp_db.json_test
    lateral view json_tuple(str,'friend') dd as good_friend
    lateral view json_tuple(good_friend,'好友1') tb as good_friend_1;
    
    -- 提取标签中所有的内容(没有的标签,返回null)
    select good_friend_1,good_friend_2,good_friend_3
    from temp_db.json_test
    lateral view json_tuple(str,'friend') dd as good_friend
    lateral view json_tuple(good_friend,'好友1','好友2','好友3') tb as good_friend_1,good_friend_2,good_friend_3;
    
    -- 提取Array
    select dream_col
    from temp_db.json_test
    lateral view  json_tuple(str,'dream') dd as dreaming
    lateral view explode(dreaming) tb as dream_col
    
  • get_json_object提取指定的json元素内容(使用"$"的方式,"."表示对象,"[]"引用数组)

    -- 获取标签对象
    select get_json_object(str,'$.name') as name
    from temp_db.json_test;
    
    -- 获取标签中的数组元素
    select get_json_object(str,'$.dream[0]') as good_friend
    from temp_db.json_test;
    
    -- 获取多层中的对象
    select get_json_object(str,'$.friend.friend_1') as good_friend
    from temp_db.json_test;
    

json_tuple与get_json_object都是hive自带的UDF。json_tuple 相对于 get_json_object 的优势就是一次可以解析多个 Json 字段。有兴趣可以参考如何在 Apache Hive 中解析 Json 数组这篇文章,其中也说了通过自行开发UDF来实现相关的功能。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,099评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,828评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,540评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,848评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,971评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,132评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,193评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,934评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,376评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,687评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,846评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,537评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,175评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,887评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,134评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,674评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,741评论 2 351