前言
相信大家都会遇到这个问题,无论是Coder还是Researcher,希望打包和发布自己的深度学习项目,可能学过Python的人都知道可以用py2exe、pyinstaller等等打包工具(将py文件转换成exe格式,使其能在没有安装python的windows系统上运行),但是对于深度学习框架Tensorflow和Cuda环境就不行了,那么这些深度学习项目一般是怎么开发的呢?在windows上的话一般是用VS编译Tensorflow c++版本然后进行开发,(可以参考如何用C++在TensorFlow中训练深度神经网络),Android也有相应的版本。另外,如果是在线部署Tensorflow项目的话请参考Tensorflow serving。
但是如果我们的项目本来就是在Tensorflow框架上进行训练的,又不想进行二次开发,想要使我们的项目能在没有安装Tensorflow的系统上运行,那么Docker也许能满足我们的需求。
Docker介绍
Docker原本是一个开源的项目,可以让应用部署在Docker上自动运行,相当于建立一个容器(Container),功能类似于虚拟机,作用类似于一艘大船上的集装箱,每个集装箱之间互不影响(引自知乎如何通俗解释Docker是什么?),而且开销比虚拟机小。后来Docker公司讲这个开源项目改名Moby,意味着Docker这个软件就属于Docker公司的了(有兴趣了解的,对于 Docker 改名 Moby ,大家怎么看?)。
Docker使用
既然Docker这么好,我们就学学怎么用:
B站有Docker的教程,很不错,有兴趣的可以去看看Docker入坑教程。
那么这里主要介绍如何安装,首先我们跟着官方的手册来安装:
这里以Ubuntu 16.04为例:
- 更新apt包
$ sudo apt-get update
- 安装需要用到的工具
$ sudo apt-get install \
apt-transport-https \
ca-certificates \
curl \
software-properties-common
- 添加Docker的官方GPG key:
$ curl -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo apt-key add -
- 添加Docker仓库
$ sudo add-apt-repository \
"deb [arch=amd64] https://download.docker.com/linux/ubuntu \
$(lsb_release -cs) \
stable"
- 接下来就是安装Docker,安装前要更新apt包:
$ sudo apt-get update
$ sudo apt-get install docker-ce
- 测试是否安装成功:
$ sudo docker run hello-world
- 如果出现以下问题:
docker: Error response from daemon: Get https://registry-1.docker.io/v2/library/hello-world/manifests/latest: Get https://auth.docker.io/token?scope=repository%3Alibrary%2Fhello-world%3Apull&service=registry.docker.io: net/http: TLS handshake timeout.
- 需要修改HTTP_PROXY:
$ sudo vim /etc/default/docker
- 然后注释export这一句:
# If you need Docker to use an HTTP proxy, it can also be specified here.
export http_proxy="http://127.0.0.1:3128/"
重新测试一下就没问题了。这里有个问题需要注意一下,我们执行Docker都是以root权限(原因是docker进程绑定的是Unix socket而不是TCP端口),那么为了方便呢,我们还要设置一下,创建一个用户组docker,权限跟root一样,然后让我的用户加入这个组里。但是这么做存在一些风险(Docker daemon attack surface)
- 创建docker组:
$ sudo groupadd docker
- 让当前用户加入组:
$ sudo usermod -aG docker $USER
*然后要先注销账户,或者重启。修改docker组的权限:
$ sudo chown "$USER":"$USER" /home/"$USER"/.docker -R
$ sudo chmod g+rwx "/home/$USER/.docker" -R
安装nvidia-docker
因为希望我们的Docker是可以用GPU的,所以还需要安装nvidia-docker。
- 添加nvidia-docker的仓库:
$ curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add -
$ distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
$ curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | \
sudo tee /etc/apt/sources.list.d/nvidia-docker.list
- 更新apt包:
$ sudo apt-get update
- 安装nvidia-docker2:
$ sudo apt-get install -y nvidia-docker2
$ sudo pkill -SIGHUP dockerd
Docker安装Tensorflow
你可以在Docker官网上挑选自己想安装的tensorflow版本(Tensorflow镜像)
也可以之间安装最新的tensorflow镜像:
$ nvidia-docker run -it tensorflow/tensorflow:latest-gpu bash
如果你是使用Jupyter来开发你的项目的,可以修改hostPort和containerPort:
$ nvidia-docker run -it -p 8888:8888 tensorflow/tensorflow:latest-gpu
开发项目
在加载了Tensorflow的镜像后,就可以开始在Docker上进行训练模型了。
但是如果我们不仅仅需要Tensorflow一个深度学习框架怎么办,比如我们还需要用到Caffe、Torch,我在安装Torch的时候,就出现很多cuda依赖和莫名其妙的错误。我尝试找了一下,github上就有人制作了集合所有常见的深度学习框架的镜像,感谢分享https://github.com/ufoym/deepo。
当我们训练好我们的深度学习模型,准备发布版本的时候,就需要打包我们整个工程的Docker镜像。
首先我们去Docker Hub注册帐号,相当于云盘一样,注册好了就创建一个仓库,然后在本地构建Docker镜像后上传到仓库。
- 显示目前docker容器的ID
$ docker ps -l
- 构建Docker镜像
$ docker commit 容器ID 用户名/仓库名
这就已经保存为本地的Docker镜像了。
- 查看已保存的镜像文件
$ docker images
- 上传Docker镜像
$ docker push 用户名/仓库名
这时系统会提示你登陆帐号,登陆成功后就会上传到仓库。
这时整个流程就结束了,你可以分享给其他人,或者在其他电脑用Docker运行这个镜像就可以了。
PS:本文是我记录学习过程的笔记,其中难免会有纰漏,希望各位朋友指正。如果有帮助到你,like一下,我们互相交流,互相进步。Life is awesome!