Docker+Spark+Jupyter=文本数据处理逻辑测试平台容器化

之前写过一篇“Spark+Jupyter=在线文本数据处理逻辑测试平台”
[http://www.jianshu.com/p/bbd4190089e7]

这几天要把这玩意儿放到我自己的阿里云上线，供一些正在学习Python文本处理的基友们试用，然后按着之前的步骤又配了一次环境。这台服务器配置渣网速慢，光编译scipy就假死了好几次。就算有着自己写的教程一步步来都要烦死了。

生无可恋的我摊在桌子上，目光扫到了一本书——《Docker技术入门与实战》，心中突然就有一个作死的想法：干脆把这玩意儿容器化好了，数据处理＋Spark听起来就很吸引人啊有木有。

说干就干，结合之前的教程我决定再来一次Docker版本的文本数据处理逻辑测试平台搭建。

事实上你可以把这篇文章看作是Docker入门操作的教程，因为里面主要讲述的是Docker的部署，修改与提交

使用Docker的话其实是很有好处的，在Docker的镜像站里已经有人家搭好的基础款jupyter镜像，我们只需要往里面添加Spark环境即可。
同样默认使用的是Ubuntu或者Debian的机器，并且知道Docker是用来干什么的即可。

目前新版本的Ubuntu和Debian应该都能直接使用apt-get安装docker，运行以下命令即可

$apt-get -y install docker.io

之后输入

$service docker status
$service docker start

确保docker服务已启动
如果docker没有创建/usr/bin/docker的话，运行

ln -sf /usr/bin/docker.io /usr/local/bin/docker

前面说过Docker的镜像站上已经有基于Jupyter的数据处理镜像可供下载了，这镜像分成两个版本:

由于我的朋友大部分使用的是Py2，所以我选择了dataquestio/python2-starter这个版本，至于Py3如果有需要后期在jupyter里添加kernel即可。
运行

$docker pull dataquestio/python2-starter

坐等进度条跑完之后执行

$docker images

即可看到目前所有的镜像，我们很高兴的看到dataquestio/python2-starter已经在列表里了

首先要准备三样东西：

我们要把这三个文件放到容器里去，所以首先我们要运行容器

docker run -v /your/file/path:/mnt dataquestio/python2-starter

这行命令的主要作用是运行容器并将你的文件路径挂载到容器系统的/mnt路径下，这里如果不懂的话建议查查docker容器的运行原理。
之后这个终端会打印出jupyter的运行信息，表示docker已经开始时运作。保留这个终端新建一个终端窗口，执行

$docker ps

会看到shell打印出所有正在运行的容器的信息，其中第一项是容器的id，复制并执行

$docker exec -it yourcontainerid /bin/bash

你会发现你的shell已经进入容器并可以对容器环境进行操作了，进入/mnt并按照上一篇教程
[http://www.jianshu.com/p/bbd4190089e7]
对spark环境进行配置，不过这个容器并没有安装Java，所以你需要执行

$add-apt-repository ppa:webupd8team/java
$apt-get update
$apt-get install oracle-java8-installer

并在之后对bashrc或者bash_profile进行修改时加入JAVA_HOME的配置

export JAVA_HOME=/usr/lib/jvm/java-8-oracle"
export PATH=$PATH:$JAVA_HOME/bin

在spark配置好并确定你的jupyter能正常使用pyspark之后退出容器的shell，执行

docker ps

你会发现容器的id已经改变，这说明这个容器已经被你添加过内容，不再是之前你下载的镜像，所以你需要将这个容器打包成一个新镜像，之后你就可以在任意装有docker的平台上部署自己的容器了。
打包容器使用docker commit命令

docker commit -m "Added Spark Support" -a "Author: yourname" $newCotainerID $newImagename

如果顺利的话命令会返回新的docker镜像id信息，执行

docker images

即可查看你的新镜像