windows10环境下搭建spark2.4.0源码阅读环境

准备工作(默认你已经安装好jdk,scala,maven,IDEA工具)

1.下载winutils.exe 文件

winutils.exe是在Windows系统上需要的hadoop调试环境工具，里面包含一些在Windows系统下调试hadoop、spark所需
要的基本的工具类，另外在使用eclipse调试hadoop程序是，也需要winutils.exe 。
下载地址：https://github.com/steveloughran/winutils
下载后的winutils.exe放到HADOOP_HOME/bin目录下。

2.增加HADOOP_HOME环境变量

在系统变量path里增加%HADOOP_HOME%\bin

3.下载spark源码

git clone https://github.com/apache/spark.git -b master
进入spark源码根目录，指定Hadoop和yarn的版本，编译：
mvn -Pyarn -Phadoop-2.7 -Dhadoop.version=2.7.7 -DskipTests clean package

4.将编译后的spark导入IDEA

用git bash以管理员身份运行build/spark-build-info 用以生成spark-version-info.properties文件
build/spark-build-info D:\bigdata\opensource\spark\core\target\extra-resources\ 2.4.0
将生成的spark-version-info.properties文件复制到spark-core_2.11-2.4.0-SNAPSHOT.jar的根目录下。(复制之前先检查根
目录下是否存在spark-version-info.properties，不存在再复制)
在conf目录下复制log4j.properties.template，重命名为log4j.properties
将spark\assembly\target\scala-2.11\jars目录下的所有jar包添加到classpath中。
运行JavaLogQuery示例代码：

运行结果

之后就可以愉快的设置断点debug啦。