前期准备
- jdk-8u141-linux-x64.tar.gz 安装包
- scala-2.12.7.tgz 安装包
- hadoop-2.7.3.tar.gz 安装包
- spark-2.3.2-bin-hadoop2.7.tgz 安装包
- 九台docker容器,分别在三个不同的服务器上(前期已经实现了docker跨物理机级别的互联)
写在安装之前的话
docker中实现分布式搭建spark其实和物理机上实现并没有多大的区别,为需要注意的是,docker并不能通过localhost 或者自己的名称认识自己或者其他docker,所以我们需要在/etc/hosts写入对应的代码,来“告诉”们的docker
诸如:
127.0.0.1 localhost
172.17.192.108 eed231d62b25
172.17.192.123 a8d318e56f9d
172.17.192.124 e4738f95aadb
172.17.192.49 b3e605bd4f6d
172.17.192.50 cc630e61ad61
172.17.192.51 d33af724c0cd
172.17.192.52 571c7e62989a
172.17.192.53 2fd70cbea830
172.17.192.64 383a6be8d583
::1 localhost ip6-localhost ip6-loopback
fe00::0 ip6-localnet
ff00::0 ip6-mcastprefix
ff02::1 ip6-allnodes
ff02::2 ip6-allrouters
安装过程
(1)配置java环境
hadoop是基于Java和scala运行的,而scala也需要Java作为支撑,所以我们需要先行安装jdk
首先,安装依赖包:
$ sudo apt-get install python-software-properties
添加仓库源:
$ sudo add-apt-repository ppa:webupd8team/java
更新软件包列表:
$ sudo apt-get update
安装java JDK:
$ sudo apt-get install oracle-java8-installer
然后通过 $ echo $JAVA_HOME
便可查询Java jdk的具体安装目录。
(2)Scala 安装
接下来是配置Scala
Scala也是主要用于保持Hadoop的操作的。
这里选择使用压缩包解压和配置环境变量的办法,安装scala。
下载安装包:
wget https://downloads.lightbend.com/scala/2.12.7/scala-2.12.7.tgz
解压:
tar -zxvf scala-2.12.7.tgz
将它移动到/usr目录下(个人习惯):
mv scala-2.12.7 /usr
配置环境变量:
vi /etc/profile
export SCALA_HOME=/usr/scala-2.12.7
export PATH=$SCALA_HOME/bin:$PATH
保存后刷新配置:
source /etc/profile
检验是否成功:
scala -version
(上述两项需要在所有docker容器中进行操作)
(3)配置免密登陆
可直接参见:
集群环境ssh免密码登录设置
(4)配置hadoop和Spark
可直接参见本链接的安装hadoop和spark的内容
配置hadoop和Spark