Sql-On-Hadoop的流程简要分析

基于Hadoop的sql方案如hive,sparksql架构一般如下:

  • Server : ThriftServer 完成sql的解析及应用(如MR,Spark,Tez)的提交
  • 传统数据库 : 用于存储表的元数据,常见的由Mysql,postgreSql等
  • 管理元数据: MetaStore,作为ThriftServer和传统数据库的桥梁
  • 数据存储 : HDFS

Hive Sql执行流程图

HiveSql执行力流程.jpg

SparkSql 执行流程图

SparkSql是基于spark Core的 onHadoop的sql解决方案。有多种sql解决方案,如通过启动Server的方式对客户端提交sql方案,客户端sql可通过beeline,JDBC的接口完成sql的解析执行。也可以直接调用sparkApi完成sql执行。

ThriftServer模式的sql方案

SparkSql流程.jpg

SparkApi模式的sql方案

Spark Sql 流程.jpg
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容