spark源码编译过程

 本文环境: Scala 2.11.8 、Maven 3.3.9 、 Spark 2.3.0

1.下载源码
1.png

原因:
1.spark对应不同的hadoop版本有不同的支持
2.方便后期对源码的更改,并进行编译


需要注意

2.png

spark文件夹中的pom文件需要修改maven的路径


3.png

pom 文件修改, 默认的是Apache的源,建议改成cdh的源,避免很多坑


WechatIMG5992.jpeg

特别注意 :需要有目录创建的权限!!!


最后是打包编译的命令:

./dev/make-distribution.sh --name 2.6.0-cdh5.7.0 --tgz -Pyarn -Phadoop-2.6 -Phive -Phive-thriftserver -Dhadoop.version=2.6.0-cdh5.7.0

  • --name之后的custom-spark是编译好后生成的那个tgz文件的文件名,可以自定义
  • Phadoop要根据自己已经安装好了的hadoop版本写
  • 如果要运行R语言请加上-Psparkr,否则请省略以提高编译速度
  • 如果要使用mesos请加上-Pmesos,否则请省略以提高编译速度

结果

5.png
至此,就可以开心的开始玩耍了! 

日常吐槽: 今天从早上9点整到差不多4点,不停排错,最后发现原因只是因为没有创建目录的权限! 心累 - - ,以后出问题一定要仔细查看日志!!!!!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容