最近安装spark1.3.0并与Hadoop2.5.0集成,在Spark的历史资源管理中心没有找到对应的版本,而且在网上也没有找到对应版本的编译教程,于是只能根据Spark官网提供的教程自己来手动编译对应的版本,废话不多说,开始正文。
一. 版本选择:
spark-1.3.0.tgz http://archive.apache.org/dist/spark/spark-1.3.0/spark-1.3.0.tgz
scala-2.10.4 http://www.scala-lang.org/download/
apache-maven-3.3.3 http://archive.apache.org/dist/maven/maven-3/3.3.3/binaries/
二. 安装:
①.安装maven
1.减压maven;
2.编辑 ~/.bashrc文件,将maven环境变量添加进去;
3.修改settings.xml文件的mirrors,修改成阿里云的中央仓库,不然下载jar文件会很悲催的:
<mirror>
<id>nexus-aliyun</id>
<mirrorOf>*</mirrorOf>
<name>Nexus aliyun</name>
<url>http://maven.aliyun.com/nexus/content/groups/public</url>
</mirror>
4. 使用如下命令验证maven是否安装成功,如果成功会显示maven的版本等信息
mvn -version
②.安装Scala,减压scala,在~/.bashrc 配置scala的环境变量,使用如下命令测试是否安装成功:
scala -version
③. 编译spark-1.3.0-hadoop-2.5.0的包:
1.减压spark;
2. 修改make文件,修改内容见如下截图:
3.执行如下命令开始编译,这个编译过程大概持续1小时20分钟左右,静静等候即可,编译成功会产生如下图所示日志:
./make-distribution.sh --name custom-spark --skip-java-test --tgz -Pyarn -Dhadoop.version=2.5.0 -Dscala-2.10.4 -Phive -Phive-thriftserver
三.Spark的几种安装模式
1.local模式
这种方式很简单,直接减压我们上面编译好的spark包,然后通过运行bin/spark-shell命令即可
2.standalone模式
这种模式是spark自带的分布式的模式,不想说太多废话,下面直接开始配置
a.修改slaves.template文件:
mv slaves.template salves
添加的内容如下,其实这里就是配置work的工作节点,内容如下截图所示:
b.修改spark-env.sh.template文件:
mv spark-env.sh.template spark-env.sh
添加的内容如下截图所示:
c.修改spark-defaults.conf文件:
mv spark-defaults.conf.template spark-defaults.conf
添加内容如下截图所示:
好,到这里spark的standalone模式配置完成,启动集群做测试,可以在http://master:8080就可以看到任务运行的情况