hive面试题

1、hive是什么?

    本质是将sql转换成mr程序。

2、hive的架构?

    客户端:CLI(shell命令行)、GUI(图形化界面)、jdbc(java实现)

    元数据:表名、类型、列分区字段等。可以存储在关系数据库MySQL和自带的derby数据库中。

    driver:解析器--》优化器--》执行器

    mr:底层计算引擎

    hbase/hdfs:存储

3、hive的数据模型?

    db:相当于文件夹

    table:内部表。在hdfs表现所属db目录下的一个文件夹

    external table:外部表

    partition:分区

    bucket:分桶

4、内部表和外部表的区别

    ①创建时外部表需要使用external修饰

    ②内部表数据由hive自身管理,外部表数据由hdfs管理

    ③删除内部表会将数据一起删除。删除外部表时只会删除元数据和路径信息。

5、hive有哪些数据格式?

    textfile:默认格式。数据不做压缩,数据解析开销大。可结合gzip进行使用,但使用该方式,hive不会对数据进行切分。

    sequenceFile:是hadoop提供的一种二进制文件格式,支持压缩和切分。一般使用block进行压缩。

    ORC:列式存储格式,有多种压缩方式,压缩比高。文件可切分。支持复杂数据结构如map。是以二进制方式存储的。不可直接读取,但是自解析。存储时首先根据行组分割整个表,在每一个行组内按列存储。

    parquet:列式存储格式,以二进制方式存储,文件中包含该文件的数据和元数据,可以自解析。存储parquet数据会按照block大小设置行组的大小,由于一般情况下每一个mapper任务处理数据的最小单位是一个block,这样可以把每一个行组由一个mapper热舞处理,增大任务执行并行度。

===在实际项目一般采用orc或者parquet,压缩方式为snappy。

6、hive常用函数?

    关系运算:<>、is null、is not null、like、rlike(正则)、regexp(正则)

    逻辑运算:%(取余)、&(位与)精度在hive中是很大的问题,类似这样的操作最好通过round指定精度。select round(a%b,2) from dual

    数值运算:round(指定精度)、floor(向下取整)、ceil(向上取整)、

    日期函数:

    from_unixtime(时间戳转日期函数,需要指定格式)select from_unixtime(xxxxxx,yyyyMMdd) from table;

    unix_timestamp(日期转时间戳函数)。

    datediff : select datediff(enddate,startdate) from table;

    date_add:select date_add(date,int) from table

    date_sub:

    条件函数:if、case、coalesce(返回参数中第一个非空值)

    select if(100=200,1,2) from table;1

    字符串函数:length、reverse、concat、concat_ws、substring、parse_url、get_json_object、split、regexp_replace、regexp_extract、trim

7、hive优化?

    fetch抓取机制、mr的本地模式、join查询优化、数据倾斜优化、了解执行计划explain、严格模式、jvm重用机制

8、描述下fetch的抓取机制

    参数设置中,开启为more的时候,在全局查询、limit查询、字段查询都不用走mr程序。

9、mr的本地模式使用场景?

    当数据量很小的情况下,如果再触发Hadoop集群的执行,消耗的资源会大于数据在本地执行的情况。所以可以通过配置参数开启。可以设置自动启动的数据量大小,默认为128m。也可以设置输入的文件个数,默认为4个。

10、join的查询优化?如大表join大表?

    以前的版本,小表join大表的时候,将小表放在左边,可以有效减少内存溢出发生的机率。

    ①多个表关联时,最好拆分成小字段,避免大sql,无法控制中间job。

    ②大表join大表:https://www.cnblogs.com/bjgua/p/9624144.html。先看是否是null值导致表过大。思路1:转换为mapjoin。行列限制。倍数b表,取模join。但该种方法b表都会被膨胀,需要处理的数据变多。思路二:1分为2,将大商家和小商家区分开,新建个膨胀后的大商家表,进行join。都需要建立一个动态变化的大商家表。

11、什么是mapjoin?

    如果不指定mapjoin,或者条件不满足mapjoin,那么解析器会将join转换为common join。在reduce端完成join,容易造成数据倾斜。默认开启自动选择mapjoin,表的大小为25m为小表。/*+ MAPJOIN(a) */ 

12、发生数据倾斜该如何处理?

    某个reduce的数据输入量远远高于其他reduce的输入量。

    常见于group by、count(distinct)、join等。分为聚合倾斜和join倾斜。设置map端聚合。如果是空值可以进行过滤或者赋予随机值。

13、小文件过多?

    小文件产生的地方有三个:map输入端、map输出端、reduce端。解决也分为两种:

输入合并:sethive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;//执行Map前进行小文件合并setmapred.max.split.size=256000000;//每个Map最大输入大小setmapred.min.split.size.per.node=100000000;//一个节点上split的至少的大小 setmapred.min.split.size.per.rack=100000000;//一个交换机下split的至少的大小

输出合并:

set hive.merge.mapfiles=true//在Map-only的任务结束时合并小文件set hive.merge.tezfiles=true;set hive.merge.mapredfiles=true//在Map-Reduce的任务结束时合并小文件set hive.merge.size.per.task=256*1000*1000//合并文件的大小set hive.merge.smallfiles.avgsize=16000000//当输出文件的平均大小小于该值时,启动一个独立的map-reduce任务进行文件merge

14、mysql的存储过程?

存储过程是为了完成指定功能的sql语句集,经编译创建并保存在数据库中,用户可以通过指定的存储过程的名称,传递需要的参数,来调用执行。

15、hql常见面试题

分组topn问题?

使用开窗函数 row_number ,套接子查询判断条件

16、hive的动态和静态分区?

    静态分区时通过手动指定,动态分区是通过数据量的判定。静态分区是在编译时期,通过用户的传递来判定,动态分区只有在sql执行时才进行判定。

    开启动态分区:set hive.exec.dynamic.partition.mode=true

17、指定分割字段?

    row format delimited fields terminated by '\t'

18、jvm重用机制?

        有个参数mapred.job.reuse.jvm.num.tasks 默认为1,表示一个jvm上最多顺序执行的task数目。最大可以设置成-1,就是一个job的task数目无论是多少,都可以按照顺序在一个jvm上执行。


题目 2

有如下表结构:

fact_order_detail (订单表)

order_datetime order_id product_id user_id store_id quantity unit_price

dim_product (产品表)

product_id product_name

dim_user (用户表)

user_id user_name city_id

dim_store (店铺表)

store_id store_name city_id

dim_city (城市表)

city_id city_name province_id

dim_province (省份表)

province_id province_name

Q1: 求每个月的每个省份的店铺销售额(单个订单的销售额=quantity * unit_price)。

select month(order_datetime),b.province_name,c.store_name,sum(quantity*unit_price) from dact_order_detail a,dim_province b,dim_store c ,dim_city d where a.store_id=c.store_id and  c.city_id=d.city_id and d.province_id=b.province_id group by month(a.order_datetime),b.province_name,c.store_name

Q2: 求每个月的每个产品的销售额及其在当月的销售额占比。

select  month(order_datetime) m,product,sum(quantity*unit_price) s,s/(select q from(select month(order_datetime) o,product,sum(quantity*unit_price) q group by o)) from fact_order_detail group by product,m

Q3: 求每个月的销售额及其环比(销售额环比=(本月销售额-上月销售额)/上月销售额)。

select month(order_datetime) m,sum(quantity*unit_price) s,(s-(select sum(quantity*unit_price) s2 from fact_order-details f1 where f1.month=f2.month-1 ))/s2 as 环比 from fact_order_details f2 group by m

Q4: 求每个月比较其上月的新增用户量及其留存率(“新增用户”定义为上月未产生购买行为且本月产生了购买行为的用户,“留存用户”定义为上月产生过购买行为且本月也产生了购买行为的人,留存率=本月留存用户数量/上月产生过购买用户数量)。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,125评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,293评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,054评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,077评论 1 291
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,096评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,062评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,988评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,817评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,266评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,486评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,646评论 1 347
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,375评论 5 342
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,974评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,621评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,796评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,642评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,538评论 2 352

推荐阅读更多精彩内容