Spark环境搭建与使用

一、环境搭建

本地搭建Hadoop(虚拟)+Spark+Python开发环境

1、安装JDK(本处使用12.0.2版本):https://www.oracle.com/java/technologies/javase-downloads.html

修改环境变量PATH并增加:P:\java\bin

系统变量增加环境变量:JAVA_HOME     P:\java\

2、下载预编译好的spark并解压至目标目录(本处使用2.4.3版本):https://spark.apache.org/downloads.html

修改环境变量PATH并增加:P:\spark\spark-2.4.3-bin-hadoop2.7

系统变量增加环境变量:SPARK_HOME     P:\spark\spark-2.4.3-bin-hadoop2.7

3、安装Hadoop

简单安装,下载与spark对应版本的Hadoop文件winutils.exe(本处使用2.7版本):https://github.com/steveloughran/winutils

我直接将该文件放在了 P:\spark\spark-2.4.3-bin-hadoop2.7\bin下面,新建c:\tmp\hive文件夹,cmd管理员进入winutils目录执行如下指令:

winutils.exe chmod -R 777 \tmp\hive

用户变量增加环境变量:HADOOP_HOME   P:\spark\spark-2.4.3-bin-hadoop2.7

完全安装,https://www.apache.org/dist/hadoop/common/,本地解压并添加环境变量。

本地安装需替换Linux集群配置,https://github.com/cdarlint/winutils下载替换bin目录。

4、安装pyspark环境

复制spark安装目录\python\lib中的py4j-0.10.4-src.zip和pyspark.zip包,粘贴包并解压至Anaconda安装目录\Lib\site-package下:

5、安装验证

可将spark\conf的log4j.properties.template重命名为log4j.properties,修改error level从INFO改成ERROR。

二、基本使用

无。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容