《Spark: The Definitive Guide 》第10章:Spark SQL 中文学习笔记

Spark SQL可以说是Spark中最重要、最强大的特性之一。
简而言之,使用Spark SQL可以对组织到数据库中的视图或表运行SQL查询。您还可以使用系统函数或定义用户函数并分析查询计划,以优化其工作负载。这直接集成到DataFrame和Dataset的API中,正如我们在前几章中看到的,您可以选择用SQL来表示某些数据操作,而用DataFrames来表示其他操作,它们将编译成相同的底层代码。

10.1 什么是SQL

10.2 大数据和SQL :Apache Hive

10.3 大数据和SQL :Spark SQL

Spark 与 Hive 的联系

10.4 怎样运行 Spark SQL 查询

Spark提供了一系列接口去执行SQL。

Spark SQL CLI

Spark SQL CLI是一个方便的工具,您可以使用它从命令行以本地模式执行基本的Spark SQL查询。请注意,Spark SQL CLI无法与Thrift JDBC Server连接。要启动Spark SQL CLI,请在Spark目录中运行以下命令:
./bin/spark-sql
你的Hive配置可以放在conf/. 中,具体可以查询 ./bin/spark-sql --help

Spark的编程SQL接口

Spark Thrift JDBC/ODBC Server

10.5Catalog

10.6表Tables

10.7视图Views

10.8数据库Databases

10.9Select Statements

10.10Advanced Topics

10.11一些其他个特性

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

友情链接更多精彩内容