一、环境搭建

本地搭建Hadoop（虚拟）+Spark+Python开发环境

1、安装JDK（本处使用12.0.2版本）：https://www.oracle.com/java/technologies/javase-downloads.html

修改环境变量PATH并增加：P:\java\bin

系统变量增加环境变量：JAVA_HOME P:\java\

2、下载预编译好的spark并解压至目标目录（本处使用2.4.3版本）：https://spark.apache.org/downloads.html

修改环境变量PATH并增加：P:\spark\spark-2.4.3-bin-hadoop2.7

系统变量增加环境变量：SPARK_HOME P:\spark\spark-2.4.3-bin-hadoop2.7

3、安装Hadoop

简单安装，下载与spark对应版本的Hadoop文件winutils.exe（本处使用2.7版本）：https://github.com/steveloughran/winutils

我直接将该文件放在了 P:\spark\spark-2.4.3-bin-hadoop2.7\bin下面，新建c:\tmp\hive文件夹，cmd管理员进入winutils目录执行如下指令：

winutils.exe chmod -R 777 \tmp\hive

用户变量增加环境变量：HADOOP_HOME P:\spark\spark-2.4.3-bin-hadoop2.7

完全安装，https://www.apache.org/dist/hadoop/common/，本地解压并添加环境变量。

本地安装需替换Linux集群配置，https://github.com/cdarlint/winutils下载替换bin目录。

4、安装pyspark环境

复制spark安装目录\python\lib中的py4j-0.10.4-src.zip和pyspark.zip包，粘贴包并解压至Anaconda安装目录\Lib\site-package下：

5、安装验证

可将spark\conf的log4j.properties.template重命名为log4j.properties，修改error level从INFO改成ERROR。

二、基本使用

无。