windows10环境下搭建spark2.4.0源码阅读环境

准备工作(默认你已经安装好jdk,scala,maven,IDEA工具)

1.下载winutils.exe 文件

winutils.exe是在Windows系统上需要的hadoop调试环境工具,里面包含一些在Windows系统下调试hadoop、spark所需
要的基本的工具类,另外在使用eclipse调试hadoop程序是,也需要winutils.exe 。
下载地址:https://github.com/steveloughran/winutils
下载后的winutils.exe放到HADOOP_HOME/bin目录下。

2.增加HADOOP_HOME环境变量

在系统变量path里增加%HADOOP_HOME%\bin

3.下载spark源码

git clone https://github.com/apache/spark.git -b master
进入spark源码根目录,指定Hadoop和yarn的版本,编译:
mvn -Pyarn -Phadoop-2.7 -Dhadoop.version=2.7.7 -DskipTests clean package

4.将编译后的spark导入IDEA

git bash以管理员身份运行build/spark-build-info 用以生成spark-version-info.properties文件
build/spark-build-info D:\bigdata\opensource\spark\core\target\extra-resources\ 2.4.0
将生成的spark-version-info.properties文件复制到spark-core_2.11-2.4.0-SNAPSHOT.jar的根目录下。(复制之前先检查根
目录下是否存在spark-version-info.properties,不存在再复制)
在conf目录下复制log4j.properties.template,重命名为log4j.properties
spark\assembly\target\scala-2.11\jars目录下的所有jar包添加到classpath中。
运行JavaLogQuery示例代码:

运行结果

之后就可以愉快的设置断点debug啦。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容