1 Hive
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类似SQL查询功能。本质是:将HQL转化成MapReduce程序
1.它的特点是什么:
1)Hive处理的数据存储在HDFS
2)Hive分析数据底层的实现是MapReduce
3)执行程序运行在Yarn上
2.它的缺点是什么
1.Hive的HQL表达能力有限
(1)迭代式算法无法表达
(2)数据挖掘方面不擅长
2.Hive的效率比较低
(1)Hive自动生成的MapReduce作业,通常情况下不够智能化
(2)Hive调优比较困难,粒度较粗
3.它的优点是什么
1.操作接口采用类SQL语法,提供快速开发的能力(简单、容易上手)。
2.避免了去写MapReduce,减少开发人员的学习成本。
3.Hive的执行延迟比较高,因此Hive常用于数据分析,对实时性要求不高的场合。
4.Hive优势在于处理大数据,对于处理小数据没有优势,因为Hive的执行延迟比较高。
5.Hive支持用户自定义函数,用户可以根据自己的需求来实现自己的函数。
4.它的架构原理是什么
架构如上图,主要分为四个部分,用户接口(client);元数据(metastore);Hadoop;驱动器(Driver)
1.其中用户接口client主要有三个部分,CLI,JDBC和webUI,第一个是hive shell,JDBC是Java访问hive,webUI是浏览器访问hive
2.元数据包括表名,表所属的数据库,表的拥有者,分区字段,表的类型(是否外部),表的数据所在目录等。
3.Hadoop就是用HDFS来储存,MapReduce来计算。
4.Driver驱动器包含四个小部件,解析器(SQL语句转为AST语法树),编译器(AST生成逻辑执行计划),优化器(优化计划)和执行器(将计划转为可运行的物理计划)。
5. Hive的大概工作流程是什么
Hive通过给用户提供的一系列交互接口,接收到用户的指令(SQL),使用自己的Driver,结合元数据(MetaStore),将这些指令翻译成MapReduce,提交到Hadoop中执行,最后,将执行返回的结果输出到用户交互接口