在开始spark学习之前,首先需要搭建Spark的开发环境,搭建开发环境可以基于eclipse或者intellij,今天主要以Intellij开发工具来搭建Spark开发环境。
开发环境准备:
1.配置jdk环境(1.8.0_20)
2.配置scala环境(2.10.5)
3.下载Intellij IDEA开发工具,并安装scala sbt(Intellij IDEA 2016.3.4)
4.下载spark包(spark1.6.3 on hadoop2.6.5)
一、下载Intellij开发工具,Intellij下载,Intellij分为收费版和社区版,根据自己的条件可以选择社区版或者收费版,注册码可以通过传送门获取。
下载完成后双击打开,下一步下一步完成,到此就完成Intellij的安装,OK。
二、打开Intellij->preferneces->plugins
安装scala插件
选择scala插件进行在线安装,也可以通过离线包安装,也可以选择通过官网链接直接在下载离线包安装,网络不稳定在线安装经常失败,所以我选择离线安装(注意:在下载离线包时需要与插件源里面版本一直,否则安装会不成功,根据下图显示的Updated日期及版本,在官网选择相应的插件包,选择从本地磁盘安装时,直接选择下载下来的zip包即可)
安装成功后重启intellij
三、创建一个scala工程
点击进入下一步,选择工程环境填写填写工程名称,点击【finish】完成工程创建(注:scala sdk 需要到scala官网下载相应的版,此处使用的版本为2.10.5,SDK下载地址)
工程创建完成后,测试scala环境是否正常
四、集成spark开发环境
首先在spark官网下载spark的jar包,根据自己集群环境下载相应的spark版本,这里我下载的是spark1.6.3与hadoop2.6.5版本。
将下载下来的spark-1.6.3-bin-hadoop2.6.tgz解压到本地磁盘目录下,在目录中找到spark-assembly-1.6.3-hadoop2.6.0.jar,将jar包加myscala工程依赖中
添加依赖后,编写spark编码测试,spark环境是否正常
到此Intellij 的spark开发环境搭建完成;