登录注册写文章

Spark Sql-Sql on Hive

Spark Sql-Sql on Hive

Spark sql-sql on hive

Spark1.0添加了sql模块。对hive的hiveql也提供了良好的支持。本章主要介绍spark如何对hql进行支持的。

1. HIve

1.1 hive

hive的数据类型

table
partition
bucket

hiveql的分类

DDL：比如创建数据库创建表删除等，
DML：数据的添加查询
UDF：自定义查询函数

hive的整体框架

用户接口支持cli jdbc webui
driver 负责将用户指令翻译成相应的mapreduce job
metastore 元数据存储仓库，想数据库和表的定义这些内容就属于元数据这个范畴，

1.2 hiveql on mapreduce执行过程分析

hiveql的执行过程如下：

parser：将hiveql解析成相应的语法树
semantic analyser：语法分析
logicalplan generating：生成相应的logicalplan
queryplan generating：生成相应的queryplan
optimizer：优化器

最后生成的mr job 交给hadoop的mr计算框架进行计算。

import hiveContext._
val hivecontext=new HIveConetxt(sc)
hql("create table if not exists src(key int,value string)")

2. HiveQL on Spark

hive的整体解决方案很不错，但有一些地方需要改进。其中之一就是查询到结果返回需要相当长的时间。主要是生成的任务是基于mr的。那么可以生成spark job么。

HIvecontext是spark提供的用户接口。hiveContext集成子sqlContext。

有了上述比较，就能抓住源码分析需要把握的几个关键点。

entrypoint hivecontext.scala
queryexecution。hivecontext。scala
- parser HIveQl.scala
- optimizer

需要用到的数据：

schema data 想数据库的定义和表的结构，存储在metadata中
raw data 要分析的文件本身

hiveql的定义和sql基本上一样。

parsesql解析过程分为两类：

nativecommand 非select语句
非nativecommand 主要是select语句

至于那些事nativecommand，hiveql里面列举了。对于非nativecommand，主要的函数事nodetoplan。

spark对hiveql的所做的优化主要体现在query相关操作，其他的依然使用hive的原声执行引擎。

在logicalplan 到physicalplan的转换过程中，tordd最关键的元素。

由于nativecommand是一些不怎么耗时的操作，因此直接使用hive中原油的execute engine来执行即可。这些command的执行示意如下：

最后编辑于：2017.12.08 15:57:08

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

Apache Spark 2.2.0 中文文档 - Spark SQL, DataFrames...
Spark SQL, DataFrames and Datasets Guide Overview SQL Dat...
草里有只羊阅读 18,441评论 0赞 85
Apache Spark 2.2.0 中文文档 - Spark SQL, DataFrames...
Spark SQL, DataFrames and Datasets Guide Overview SQL Dat...
Joyyx阅读 12,587评论 0赞 16

Hive on spark的架构与解析SQL的过程
一、 Hive on spark的基本架构/ 1. Hive 的架构 Hive的整体架构可以分成以下几大部分...
ZYJ2016阅读 11,515评论 0赞 9
总结：Hive，Hive on Spark和SparkSQL区别
Hive on Mapreduce Hive的原理大家可以参考这篇大数据时代的技术hive：hive介绍，实际的一...
mrlevo520阅读 29,150评论 6赞 61
##数据仓库中的SQL性能优化（Hive篇）
数据仓库中的SQL性能优化（Hive篇） - 简书 http://www.jianshu.com/p/808a5...
葡萄喃喃呓语阅读 10,044评论 0赞 31

1赞2赞

赞赏

手机看全文