一、环境搭建
本地搭建Hadoop(虚拟)+Spark+Python开发环境
1、安装JDK(本处使用12.0.2版本):https://www.oracle.com/java/technologies/javase-downloads.html
修改环境变量PATH并增加:P:\java\bin
系统变量增加环境变量:JAVA_HOME P:\java\
2、下载预编译好的spark并解压至目标目录(本处使用2.4.3版本):https://spark.apache.org/downloads.html
修改环境变量PATH并增加:P:\spark\spark-2.4.3-bin-hadoop2.7
系统变量增加环境变量:SPARK_HOME P:\spark\spark-2.4.3-bin-hadoop2.7
3、安装Hadoop
简单安装,下载与spark对应版本的Hadoop文件winutils.exe(本处使用2.7版本):https://github.com/steveloughran/winutils
我直接将该文件放在了 P:\spark\spark-2.4.3-bin-hadoop2.7\bin下面,新建c:\tmp\hive文件夹,cmd管理员进入winutils目录执行如下指令:
winutils.exe chmod -R 777 \tmp\hive
用户变量增加环境变量:HADOOP_HOME P:\spark\spark-2.4.3-bin-hadoop2.7
完全安装,https://www.apache.org/dist/hadoop/common/,本地解压并添加环境变量。
本地安装需替换Linux集群配置,https://github.com/cdarlint/winutils下载替换bin目录。
4、安装pyspark环境
复制spark安装目录\python\lib中的py4j-0.10.4-src.zip和pyspark.zip包,粘贴包并解压至Anaconda安装目录\Lib\site-package下:
5、安装验证
可将spark\conf的log4j.properties.template重命名为log4j.properties,修改error level从INFO改成ERROR。
二、基本使用
无。