笔者介绍的是在MAC环境下使用Idea搭建spark环境。
环境:
spark 2.0.0
scala 2.11.8
maven 3.9.9
idea 15
1.Idea的安装.Idea可以在官网上下载。熟悉java的肯定都知道这个开发利器,可以在官网上进行下载,在此就不在赘述。有免费的和付费版本,对于我们来说,免费的完全够用。
2.maven的安装与配置
Maven 是一个项目管理和构建自动化工具。我们为了某个功能的实现经常用到的别的jar包,maven可以非常方便的管理jar包。
1)在官网上进行下载http://maven.apache.org/download.cgi。下载完成之后进行环境配置。我把maven的包放在了 /usr/local/share/目录下
2)在Terminal输入 vi ~/bash_profile 在此文件配置环境。(包括java的环境也在此配置)
运行命令 source ~/.bash_profile 使生效
执行 mav -v 查看是否成功
3.使用刚装完的maven 配置idea
1打开 idea 新建一个工程
Maven home directory maven的下载目录
user settings file 是maven的配置文件 我们选择默认就可以了
local repository 是本地包的管理仓库override之后可以自定义自己的管理目录。maven自动下载的包都在这里了。
4.创建maven项目
配置完之后会有一段时间的loading 等待即可
Project SDK 你的java版本
给Creat from archetype 打上对勾之后我们就可以选择模板,选择scala的模板。一路next之后写上名字就ok了。
这样这个项目就创建完成了。我们看一下新项目的目录结构。
其中的pom.xml就是配置我们项目的依赖包的。src是项目存放代码的目录,下面有两个结构相同的目录main和test,其中我们在main目录下编写代码,test编写测试代码,这里先不使用测试,可以将test目录删除。勾选右上角的Enable Auto-Import,这样Idea就会自动下载项目所需的依赖包。还要注意中间的Scala版本,选择自己使用的版本。刚开始build会比较慢。
每一个依赖都在一个dependency标签下,其中包括groupID、artifactID和version。如果不知道依赖包的这些内容的话,可以在这里进行查询,查询结果就有这些信息。比如要查询spark的依赖,有如下的结果:
http://mvnrepository.com/artifact/org.apache.spark/spark-streaming_2.10/2.0.0-preview
就可以复制到pom.xml文件中了。
maven会自动下载pom.xml中添加的依赖包,不用我们自己添加,非常方便。
这样一个spark开发环境就搭建完毕了。