Spark local模式连接集群hdfs、hive

背景介绍

Spark提供了local、standalone、on yarn等多种运行模式，但为了保持开发环境与实际运行环境的一致性，通常都是在本地编写代码，然后编译并上传jar包到Spark集群调试运行。
但是面对复杂的处理逻辑，或遇到性能问题要修改代码时，开发人员将不得不多次进行修改、编译、上传jar。无休止地重复十分耗费精力，严重影响开发效率。

Local模式背后的思考

Spark local模式是框架提供的一种使用线程模拟多个进程协调工作的模式，方便我们在IDE中直接run程序。但是默认情况下该模式所使用的本地文件系统、本地hive的库，都与应用真实的运行环境不一致。因此要想使用local模式的快速开发测试，必须先配置local模式使用集群中的公共资源。

如何配置（windows）

集群环境：hadoop2.7.4、Spark2.1.1
需要软件：winutils.zip
开发工具：IDEA

配置本地HADOOP_HOME
解压hadoop-2.7.4.tar.gz到D:\hadoop\hadoop-2.7.4
解压 winutils.zip 软件至 D:\hadoop\hadoop-2.7.4\bin
配置环境变量：HADOOP_HOME D:\hadoop\hadoop-2.7.4
添加 path ： %HADOOP_HOME%\bin;
拷贝集群配置文件
集群文件：core-site.xml、hdfs-site.xml、hive-site.xml
将集群文件拷贝到工程中的 resources 文件夹
配置本地DNS解析
目的是让本地环境能够解析出上述配置文件中的域名
配置集群环境中的HDFS的权限用户
默认情况下使用windows本地用户去读写hdfs，很显然是没有权限的。
使用如下方式就可解决：

System.setProperty("HADOOP_USER_NAME", "hdfs")

运行测试代码
在IDEA中直接运行如下代码进行测试：

def main(args: Array[String]): Unit = {
// 设置日志级别
Logger.getLogger("org").setLevel(Level.INFO)
// 如果在windows本地跑，需要从widnows访问HDFS，需要指定一个合法的身份
System.setProperty("HADOOP_USER_NAME", "hdfs")

val spark = SparkSession.builder()
.appName("App")
.master("local") // local
.config("HADOOP_USER_NAME","root") // 该种方式不生效
.enableHiveSupport()
.getOrCreate()
val sc = spark.sparkContext
// 导入spark的隐式转换
import spark.implicits._
// 导入spark sql的functions
import org.apache.spark.sql.functions._

spark.sql("show tables").show()


sc.stop()
spark.stop()
}

总结

配置Spark local模式获取集群资源，避免频繁打jar包、上传等过程，大大提高开发效率。本文介绍windows下开发环境配置，其他平台同理。另外，集群环境如apache原生版、cdh整合版均已测试可以使用。

安装包及项目源码
提取码：1i6h

Spark local模式连接集群hdfs、hive

背景介绍

Local模式背后的思考

如何配置（windows）

总结

推荐阅读更多精彩内容