目录
① 适用服务器环境
② 裸机配置步骤
● 1. 配置局域或公共网络,以便远程连接
● 2. 查看内存及外存,可能需要挂载硬盘
● 3. 安装软件:一体化平台IDE软件Anaconda
● 4. 查看机器显卡类型,找到对应驱动版本号
● 5. 安装驱动:英伟达显卡驱动NVIDIA
● 6. 安装驱动:统一计算设备架构驱动CUDA
● 7. 安装驱动:深度神经网络GPU加速库CUDNN
● 8. 安装软件:应用容器引擎Docker
● 9. 安装软件:常用深度学习平台库(可选)
③ 布置独立化算法
④ 联调测试接口
● 1. 使用接口测试工具Postman
● 2. 使用脚本语言调用容器接口
硬件参考图像
① 适用服务器环境
- OS: Ubuntu 18.04 / 20.04
- GPU: GeForce RTX 3080 Ti (12GB) / GeForce RTX 3090 (24GB)
- Drivers: NVIDIA + CUDA + CUDNN
- Softwares: Anaconda (Python, PyTorch, TensorFlow, MXNet, etc.) + Docker
② 裸机配置步骤
1. 配置局域或公共网络,以便远程连接
- 首先需要本地化配置裸机网络环境,并安装
ssh
远程连接工具包
sudo apt update
sudo apt install openssh-server # 安装ssh客户端工具包
sudo systemctl status ssh # 查看是否安装并成功运行,默认是激活状态
sudo ufw allow ssh # 如果未激活,可以通过防火墙ufw开启ssh功能
如果服务器有图形界面,直接在系统网络客户端中,配置固定IP地址、子码、掩码等信息,或者机器仅需要在局域网内访问,通过
ifconfig
查看动态分配的IP地址如果服务器无图形界面,需要通过命令行操作,配置静态网络IP地址
dmesg | grep -i eth # 查看网卡信息
lspci | egrep -i eth # 查看有几块网卡
ifconfig # 查看网络配置信息
ifconfig eth0 down && ifconfig eth0 up # 方法1,将网卡网络服务禁用或开启,eth0为网卡名
ifdown eth0 && ifup eth0 # 方法2,需已安装apt install ifupdown2
为旧的Ubuntu系统(比如14.04或16.04)网卡配置静态IP地址,需要root
用户
sudo vim /etc/network/interfaces
# 编辑<interfaces>文件的一个参考模板
# interfaces(5) file used by ifup(8) and ifdown(8)
auto lo
iface lo inet loopback
auto eno1
iface eno1 inet static
address xxx.xxx.xxx.xxx
netmask 255.255.255.0
gateway xxx.xxx.xxx.254
dns-nameservers 8.8.8.8
sudo service networking restart # Linux中重新启动网卡网络服务,但Ubuntu下可能不可用
sudo systemctl restart networking # Ubuntu下重新启动网卡网络服务,一种选择
sudo service NetworkManager restart # Ubuntu下重新启动网卡网络服务,使用ifconfig重启亦可
为较新版本的Ubuntu系统(比如18.04或20.04)网卡配置静态IP地址,需要root
用户
cd /etc/netplan # 适用于系统版本为Ubuntu18.04,及其以上的Linux/Ubuntu操作系统
sudo vim 01-network-manager-all.yaml # 若没有该文件,自行复制存在的.yaml文件,或新建
# 编辑<01-network-manager-all.yaml>文件的一个模板
network:
ethernets:
eno1:
addresses: [xxx.xxx.xxx.xxx/24]
gateway4: xxx.xxx.xxx.254
#dhcp: true
nameservers:
addresses:
- 8.8.8.8
version: 2
#renderer: NetworkManager
sudo netplan apply
- 修改默认端口号
22
,提高远程网络连接安全性
sudo vim /etc/ssh/sshd_config /etc/ssh/sshd_config.bak # 备份一下相关系统配置文件
sudo vim /etc/ssh/sshd_config # 修改系统配置文件,选择性注释掉“Port 22”,添加新的端口号“Port xxxx”
iptables -A INPUT -p tcp --dport xxxx -j ACCEPT # 添加到路由表,将修改内容执行生效
sudo /etc/init.d/sshd restart # 重启sshd文件生效
sudo service ssh restart # 如果上面的命令行不通,试一下这种方式重启sshd文件生效
netstat -an | grep "LISTEN " # 查看端口状态,是否已打开xxxx端口
2. 查看内存及外存,可能需要挂载硬盘
- 查看CPU内存及其运行使用情况的常用指令
top # 查看内存及CPU使用情况
htop # 查看内存及CPU使用更详细情况, sudo apt-get install htop
free -m # 单独查看内存使用情况
cat /proc/cpuinfo | grep name | cut -f2 -d: | uniq -c # 查看CPU基本信息(逻辑CPU、型号、频率等)
cat /proc/cpuinfo | grep physical | uniq -c # 查看CPU实际的物理核数
cat /proc/meminfo # 查看内存详细信息
- 查看外存,即硬盘存储信息的常用指令,如有必要,需要挂载硬盘
sudo fdisk -l # 查看所有外存设备,包括尚未挂在的硬盘
sudo mkfs -t ext4 /dev/sda # 新的硬盘分区需要创建文件系统,假设未挂载硬盘路径为/dev/sda
sudo mkdir /datasda # 在主机上创建新的root文件夹,假设文件夹名称为/datasda
sudo mount /dev/sda /datasda # 挂载命令,从实际位置到挂载位置
sudo vim /etc/fstab # 将自动挂载硬盘的信息写入相关文件,下次开机无需再次挂载
<file system> <mount point> <type> <options> <dump> <pass> # /etc/fstab文件表头
/dev/sdb /datasdb ext4 defaults 0 0 # 写入/etc/fstab文件中的示例信息
sudo chown root:root /datasda # 将盘的所有权更改为root
sudo chmod a+rwx /datasda # 加载全部权限
sudo chmod 755 /datasda # 或者加载部分权限,即rwxr-xr-x
3. 安装软件:一体化平台IDE软件Anaconda
- 为了方便使用Python环境以及各种深度学习平台框架,推荐安装Anaconda,否则自行管理多的版本的Python环境,相当费力。前往官网 Anaconda 下载合适版本的Anaconda
wget https://repo.anaconda.com/archive/Anaconda3-2021.05-Linux-x86_64.sh
sh ./Anaconda3-2021.05-Linux-x86_64.sh
conda list # 查看已安装的各种python依赖包
conda env list # 列举当前配置过的python环境,或不同版本python
conda install opencv-python -i https://pypi.tuna.tsinghua.edu.cn/simple # 安装某个依赖包,比如opencv,-i可为镜像加速
conda create -n py39 python=3.9 # 创建一个新的独立的python3.9环境,名称为py39
conda activate py39 # 激活或切换到某个python环境下
conda remove --name py39 --all # 删除某个python环境
4. 查看机器显卡类型,找到对应驱动版本号
- 常用GPU驱动及其相关占用情况的相关指令。注意,PCI对应的显卡型号需要自己查询 PCI devices,比如
1b06
对应的是GeForce GTX 1080 Ti,2208
对应的是GeForce GTX 3080 Ti,2204
对应的是GeForce GTX 3090
lspci | grep -i vga # 查看电脑上的显卡硬件信息
ubuntu-drivers devices # 查看显卡型号和推荐驱动版本
sudo dmidecode | grep "Product Name" # 查看机器型号
sudo dmidecode | grep -A16 "Memory Device$"|grep Size # 查看内存插槽个数及使用情况
# 以下指令仅限NVIDIA、CUDA或CUDNN驱动已安装
nvidia-smi # 查看GPU占用情况,仅限NVIDIA驱动已安装
watch -n 3 nvidia-smi # 每隔n秒显示刷新一次GPU详情
cat /usr/local/cuda/version.txt # 查看CUDA版本
cat /usr/local/cuda/include/cudnn.h | grep CUDNN_MAJOR -A 2 # 查看cudnn版本
# 清除GPU占用,特别是Ctrl+C终止运行后,GPU存储没有及时释放,需要手动清空
ps aux | grep python # 使用ps按照关键词如python,找到程序的PID,再使用kill结束该进程
nvidia-smi --gpu-reset -i [gpu_id] # 直接重置没有被清空的 GPU
5. 安装驱动:英伟达显卡驱动NVIDIA
- 英伟达官网 NVIDIA 提供了使用GUI安装NVIDIA驱动程序的一体包,可自行注册账号去下载安装,这适用于无法连接公网的服务器。注意,这里必须切换到
root
用户安装
./NVIDIA-Linux-x86_64-460.84.run # 假设我们下载得到的一体包为该名称,按提示步骤安装
- 另外,如果服务器能够访问公网,且网络带宽稳定,我们也可以通过命令行的方式,在线安装
sudo add-apt-repository ppa:micahflee/ppa # 添加PPA存储库,以便最新的NVIDIA驱动程序
ubuntu-drivers devices # 查看推荐NVIDIA驱动版本,新旧自选,一般旧的更稳定
sudo apt install nvidia-driver-460 # 假设查看并挑选的推荐版本号为460
sudo reboot # 安装完成后,可能需要重启系统
6. 安装驱动:统一计算设备架构驱动CUDA
- 首先在官网上 CUDA 选择合适的CUDA版本
# e.g., cuda_11.2.1 for GTX 3080 Ti and GTX3090
wget https://developer.download.nvidia.com/compute/cuda/11.2.1/local_installers/cuda_11.2.1_460.32.03_linux.run
sudo sh cuda_11.2.1_460.32.03_linux.run
nvcc -V # 查看CUDA版本,适用于旧版本
cat /usr/local/cuda/version.json # 查看CUDA版本,适用于新版本
- 然后,待安装完毕,在
.bashrc
文件中配置CUDA路径
sudo vim ~/.bashrc
export PATH=/usr/local/cuda-11.2/bin${PATH:+:${PATH}}
export CUDA_HOME=/usr/local/cuda-11.2${CUDA_HOME:+:${CUDA_HOME}}
export LD_LIBRARY_PATH=/usr/local/cuda-11.2/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}
source ~/.bashrc
7. 安装驱动:深度神经网络GPU加速库CUDNN
- 首先在官网上 CUDNN 选择合适的CUDNN版本
# e.g., cudnn-11.2 for GTX3080Ti and GTX3090
wget https://developer.download.nvidia.cn/compute/machine-learning/cudnn/secure/8.1.1.33/11.2_20210301/cudnn-11.2-linux-x64-v8.1.1.33.tgz
# unzip and install
tar -xzvf cudnn-11.2-linux-x64-v8.1.1.33.tgz
mkdir cudnn-11.2-linux-x64-v8.1.1.33
mv cuda cudnn-11.2-linux-x64-v8.1.1.33
sudo cp cuda/include/* /usr/local/cuda/include/
sudo cp cuda/lib64/libcudnn* /usr/local/cuda/lib64/
sudo chmod a+r /usr/local/cuda/include/* /usr/local/cuda/lib64/libcudnn*
cat /usr/local/cuda/include/cudnn_version.h | grep CUDNN_MAJOR -A 2 # 查看CUDNN版本,适用于新版本
- 最新版本的CUDA和CUDNN可能还需要配上NCCL,前往官网 NCCL 下载合适的NCCL版本。这一步必须联网
# e.g., download NCCL 2.8.4, for CUDA 11.2, February 03,2021.
# Network Installer for Ubuntu20.04
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-ubuntu2004.pin
sudo mv cuda-ubuntu2004.pin /etc/apt/preferences.d/cuda-repository-pin-600
sudo apt-key adv --fetch-keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/7fa2af80.pub
sudo add-apt-repository "deb https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/ /"
sudo apt-get update
# Network Installer for Ubuntu18.04
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64/cuda-ubuntu1804.pin
sudo mv cuda-ubuntu1804.pin /etc/apt/preferences.d/cuda-repository-pin-600
sudo apt-key adv --fetch-keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64/7fa2af80.pub
sudo add-apt-repository "deb https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64/ /"
sudo apt-get update
# For Ubuntu:
sudo apt install libnccl2=2.8.4-1+cuda11.2 libnccl-dev=2.8.4-1+cuda11.2
# For RHEL/Centos:
sudo yum install libnccl-2.8.4-1+cuda11.2 libnccl-devel-2.8.4-1+cuda11.2 libnccl-static-2.8.4-1+cuda11.2
8. 安装软件:应用容器引擎Docker
- 如果机器有旧的版本的Docker环境需要删除,方式如下:
sudo apt-get remove docker docker-engine docker.io containerd runc
接下来,安装新版本的Docker环境,这里分两种情况,一种是在线安装,服务器能访问公网;一种是离线安装,服务器无法访问公网
1)在线安装,服务器能访问公网
# update source data, and install libs
sudo apt-get update
sudo apt-get install apt-transport-https ca-certificates curl gnupg-agent software-properties-common
# install GPG
curl -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo apt-key add -
# choose one source data from two options
sudo add-apt-repository "deb [arch=amd64] https://download.docker.com/linux/ubuntu $(lsb_release -cs) stable" # official
sudo add-apt-repository "deb [arch=amd64] http://mirrors.aliyun.com/docker-ce/linux/ubuntu $(lsb_release -cs) stable" # aliyun
# install docker engine
sudo apt-get update
sudo apt-get install docker-ce docker-ce-cli containerd.io
# config of docker
sudo systemctl daemon-reload
service docker restart
sudo docker info
# install docker-compose
curl -L https://get.daocloud.io/docker/compose/releases/download/1.25.4/docker-compose-`uname -s`-`uname -m` -o ./docker-compose
sudo mv ./docker-compose /usr/local/bin/docker-compose
sudo chmod +x /usr/local/bin/docker-compose
docker-compose info
- 2)离线安装,服务器无法访问公网
首先,在包托管服务器上下载合适的安装包,离线安装Docker需要下载3个包:containerd.io,docker-ce-cli,docker-ce
wget https://download.docker.com/linux/ubuntu/dists/xenial/pool/stable/amd64/containerd.io_1.4.6-1_amd64.deb
wget https://download.docker.com/linux/ubuntu/dists/xenial/pool/stable/amd64/docker-ce-cli_20.10.6~3-0~ubuntu-xenial_amd64.deb
wget https://download.docker.com/linux/ubuntu/dists/xenial/pool/stable/amd64/docker-ce_20.10.7~3-0~ubuntu-xenial_amd64.deb
然后,下载完毕后将安装包拷贝到ubuntu服务器上,用dpkg
命令安装,先安装containerd.io和docker-ce-cli,最后安装docker-ce。同样地,docker-compose文件也需要提前下载完毕,然后拷贝至目标服务器。命令如下
# install containerd.io, docker-ce-cli and docker-ce
sudo dpkg -i xxxx.deb
# config of docker
sudo systemctl daemon-reload
service docker restart
sudo docker info
# config of docker-compose
sudo mv ./docker-compose /usr/local/bin/docker-compose
sudo chmod +x /usr/local/bin/docker-compose
docker-compose info
9. 安装软件:常用深度学习平台库(可选)
如果需要配置一些常用的深度学习框架, 比如PyTorch,TensorFlow或MXNet,当然都是GPU版本的,可以通过conda统一管理。
- PyTorch的安装,登录官网 PyTorch ,按照首页的下载教程,选配参数,并复制最终的下载命令行。比如我们选择
Stable + Linux + Pip + Python + CUDA11.3
的配置后,得到下面的安装指令
pip3 install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu113
如果是本地局域网内使用的服务器,无法连接公网,可以通过上述主链接,直接找到三个安装包torch, torchvision, torchaudio
的绝对链接地址,使用wget
下载后,复制到服务器上安装
- TensorFlow的安装,正常情况下,如果没有对版本的要求,可以使用默认安装指令一键式安装
pip3 install tensorflow-gpu
# enter python environment, and check if GPUs have been detected by tensorflow
python3
import tensorflow as tf
tf.config.list_physical_devices("GPU")
如果需要安装指定版本的TensorFlow,则需要在命令行中带上版本需要。同样地,如果服务器无法连接到公网,自行下载.whl
安装文件,复制到服务器上后,再离线安装
③ 布置独立化算法
假设我们已经在开发环境下,完成了多个Docker容器的编译,并将其打包成了.tar
文件,下面需要考虑如何在生产环境的机器上,部署这些容器
- 将Docker镜像和容器导出为
.tar
文件
sudo docker ps # 找到机器上待导出的容器名称,假设为 container_name_local:latest
sudo docker save -o container_name_final.tar container_name_local:latest # 导出容器为.tar文件
sudo docker images # 列举当前机器中已拉取的Docker镜像
sudo docker ps -a # 方式一:列举当前机器中正在运行以及关闭的Docker容器
sudo docker container list # 方式二:列举当前机器中正在运行以及关闭的Docker容器
- 改变
.tar
文件的所有权,默认需要root权限
sudo chmod a+rwx ./container_name_final.tar
sudo chown user_name:user_name ./container_name_final.tar
- 将打包好的Docker镜像复制到生产环境
# 假如需要通过VPN连接生产环境下的服务器,我们使用proxychains
sudo apt-get install proxychains
sudo vim /etc/proxychains.conf # 配置proxychains中需要的VPN信息
proxychains ssh user_name@xxx.xxx.xxx.xxx # 尝试通过proxychains登录远程服务器
cd /datasda && mkdir docker_tars # 在服务器上创建临时文件夹docker_tars
exit # 退出远程服务器,回到开发环境下
proxychains scp -rv ./container_name_final.tar user_name@xxx.xxx.xxx.xxx:/data/docker_tars # 远程复制
- 生产环境中,导入打包好的
.tar
文件
proxychains ssh user_name@xxx.xxx.xxx.xxx
cd /datasda/docker_tars
sudo docker load -i container_name_final.tar
- 启动Docker容器,并测试可用性
# 假设编译docker容器时,路径挂载方式为/datasda/docker_data:/data,则需要新建同名文件夹
mkdir /datasda/docker_data
# 启动非GPU依赖型容器,假设5001为重新分配的端口号
sudo docker run -d -p 5001:5000 -v /datasda/docker_data:/data container_name_final
# 启动GPU依赖型容器,假设5002为重新分配的端口号
sudo docker run --gpus 2 -d -p 5002:5000 -v /datasda/docker_data:/data container_name_final
# 测试容器的可访问性
curl http://localhost:5001/ping # 测试是否正常开启
curl http://localhost:5001/container_api_name with post a json file # 如果容器API接口调用输入为单个json文件
curl http://localhost:5001/container_api_name?path=./path/to/image # 如果容器API接口调用输入为单张图片
④ 联调测试接口
待容器接口开发并部署完毕之后,还需要远程测试接口的可调用性,下面提供两种测试方式供参考。
1. 使用接口测试工具Postman
Postman 是一款功能超级强大的用于发送HTTP请求的Chrome插件,做web页面开发和测试的人员最常使用。这里同样可以借助Postman,在客户端向服务器后台发送各类请求,以下是两种常见的情况:
- 选择
GET
请求,通过在命令行中指定文件路径,获取并返回后台输出
http://localhost:5001/container_api_name?path=./path/to/file
- 选择
POST
请求,通过将输入封装在json文件中,获取并返回后台输出
http://localhost:5001/container_api_name # 在UI界面的Body中粘贴json文件内容
2. 使用脚本语言调用容器接口
与使用Postman测试类似,我们可以使用脚本语言内嵌式调用,例如使用Python中的requests
包调用(假设容器本地对外端口为5001),这里仍然分成GET
和POST
两种请求类型
- 请求类型为
GET
,注意Docker容器中的API接口类型也需要是GET
# 正常情况下,json_result返回结果应当是标准输出结果中的JSON格式
import json
import requests
container_url = http://localhost:5001/container_api_name
paras = {'path': file_relative_path}
timeout = 60
result = requests.get(container_url, params=paras, timeout=timeout)
json_result = json.loads(result.text)
- 请求类型为
POST
,注意Docker容器中的API接口类型也需要是POST
# 正常情况下,json_result返回结果应当是标准输出结果中的JSON格式
import json
import requests
container_url = http://localhost:5001/container_api_name
input_dict = [{ "key_name1": [{...}], "key_name2": [{...}] }]
timeout = 60
result = requests.post(container_url, json=input_dict, timeout=timeout)
json_result = json.loads(result.text)
接口测试全部正常后,可继续进行压力测试或疲劳测试等,检验后台系统的稳定性和鲁棒性。