登录注册写文章

Sql-On-Hadoop的流程简要分析

Sql-On-Hadoop的流程简要分析

基于Hadoop的sql方案如hive，sparksql架构一般如下：

Server ： ThriftServer 完成sql的解析及应用（如MR，Spark，Tez）的提交
传统数据库：用于存储表的元数据，常见的由Mysql，postgreSql等
管理元数据： MetaStore，作为ThriftServer和传统数据库的桥梁
数据存储： HDFS

Hive Sql执行流程图

HiveSql执行力流程.jpg

SparkSql 执行流程图

SparkSql是基于spark Core的 onHadoop的sql解决方案。有多种sql解决方案，如通过启动Server的方式对客户端提交sql方案，客户端sql可通过beeline，JDBC的接口完成sql的解析执行。也可以直接调用sparkApi完成sql执行。

ThriftServer模式的sql方案

SparkSql流程.jpg

SparkApi模式的sql方案

Spark Sql 流程.jpg

最后编辑于：2018.10.08 21:00:16

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

Apache Spark 2.2.0 中文文档 - Spark SQL, DataFrames...
Spark SQL, DataFrames and Datasets Guide Overview SQL Dat...
草里有只羊阅读 18,441评论 0赞 85
Apache Spark 2.2.0 中文文档 - Spark SQL, DataFrames...
Spark SQL, DataFrames and Datasets Guide Overview SQL Dat...
Joyyx阅读 12,587评论 0赞 16

Hive的安装部署 + 课程一个月总结
前言： Hadoop的课程已经告一段落，基本上在零基础课程里不会再出现了，接下来的课程由若总来上，第一讲Have。...
ly稻草阅读 9,383评论 1赞 9
Structure Streaming[Official Document]
1. Overview： Structured Streaming是基于Spark SQL引擎的可扩展、具有容错性...
奉先阅读 7,993评论 0赞 1
总结：Hive，Hive on Spark和SparkSQL区别
Hive on Mapreduce Hive的原理大家可以参考这篇大数据时代的技术hive：hive介绍，实际的一...
mrlevo520阅读 29,150评论 6赞 61

3赞4赞

赞赏

手机看全文