Spark SQL可以说是Spark中最重要、最强大的特性之一。
简而言之,使用Spark SQL可以对组织到数据库中的视图或表运行SQL查询。您还可以使用系统函数或定义用户函数并分析查询计划,以优化其工作负载。这直接集成到DataFrame和Dataset的API中,正如我们在前几章中看到的,您可以选择用SQL来表示某些数据操作,而用DataFrames来表示其他操作,它们将编译成相同的底层代码。
10.1 什么是SQL
10.2 大数据和SQL :Apache Hive
10.3 大数据和SQL :Spark SQL
Spark 与 Hive 的联系
10.4 怎样运行 Spark SQL 查询
Spark提供了一系列接口去执行SQL。
Spark SQL CLI
Spark SQL CLI是一个方便的工具,您可以使用它从命令行以本地模式执行基本的Spark SQL查询。请注意,Spark SQL CLI无法与Thrift JDBC Server连接。要启动Spark SQL CLI,请在Spark目录中运行以下命令:
./bin/spark-sql
你的Hive配置可以放在conf/. 中,具体可以查询 ./bin/spark-sql --help