深度学习服务器常用配置

一、安装GPU驱动

在使用GPU云服务时，可以在创建服务器时选择预装特定版本驱动和CUDA镜像。但是，如果自己购买一台服务器，或者创建时忘记预装驱动，那么就需要自己去NVIDIA官网下载对应驱动。下面以Ubuntu操作系统，NVIDIA Tesla P40为例，具体讲解如何安装驱动（确保具有sudo权限）。

1.查看当前系统中是否已安装dkms

dpkg -l | grep -i dkms

出现以下结果表明已安装dkms

图1.png

如果返回为空，则表明未安装dkms，执行以下指令进行安装

apt-get install dkms

2.检查NVIDIA驱动依赖gcc和linux-kernel-headers

通过以下指令查看gcc和linux-kernel-headers是否安装

dpkg -l | grep -i gcc
dpkg -l | grep -i linux-headers

如果返回如下结果，表示已安装

图2.png

若返回为空，则表明未安装，执行以下命令进行安装

sudo apt-get install gcc linux-kernel-headers

3.下载NVIIDA驱动

首先，前往NVIDIA Driver Downloads下载对应的驱动。我自己使用的是Tesla P40，选项如下

图3.png

这里的CUDA Toolkit最新版本是11.7，我选择11.6版本是因为Pytorch官网目前支持到11.6，为了不必要的麻烦尽量选择和深度学习框架匹配的版本。

接着，选择SEARCH进入下载页面。在DOWNLOAD右击选择复制链接地址。

图4.png

最后，在终端使用wget指令，黏贴链接地址进行安装包下载。

图5.png

4.安装驱动

在安装之前，需要修改安装包权限。通过以下指令修改（xxx替换为实际驱动版本号）：

chmod +x NVIDIA-Linux-x86_64-xxxx.run

执行驱动安装指令。

sudo sh NVIDIA-Linux-x86_64-xxxx.run --ui=none --disable-nouveau --no-install-libglvnd --dkms -s

安装完成后，通过指令nvidia-smi进行验证。

图6.png

二、安装Anaconda

1.安装包下载

Anaconda下载地址：Anaconda Installers

图7.png

根据自己使用的操作系统选择对应的安装包，右键选择复制链接地址。在服务器终端使用wget进行下载

图8.png

2.Anaconda安装

进入下载路径，执行bash ./xxx进行安装，其中xxx表示步骤一下载的安装包。直接回车键即可安装。

安装结束终端命令行前会带(base)，此时表示conda环境以激活。

3.Conda常用指令

显示当前已经创建的Python环境：conda env list
创建环境名为env_name的虚拟环境：conda create -n env_name python=3.8
进入环境：conda activate env_name
删除环境：conda remove -n env_name —all

三、启动Jupyter-lab

1.服务器端启动jupyter-lab

为了让jupyter-lab能够正常后台运行，通常搭配screen一起使用。screen的具体使用方法参考：Linux screen命令

(1) 创建screen: screen -S screen_name

(2) 启动jupyter-lab服务：jupyter-lab --no-browser --port=8888 --ip=0.0.0.0

*   port：用于指定具体的端口号
*   ip：当服务器有公网ip地址时，可以直接通过公网ip加端口号进行访问，例如：1.12.32.1:8888

服务启动后将输出的token保存，后面jupyterlab会使用该token进行登陆。

(3) 退出screen：control+a+d

2.本地端远程连接

(1) 启动服务时如果添加了ip参数，即可直接通过ip地址加端口号进行访问，例如1.12.32.1:8888。

(2) 如果服务器防火墙没有开放对应端口，此时可以通过端口映射进行访问。具体步骤如下：

首先，将远程8888端口映射到本地对应端口

ssh -N -f -L localhost:8888:localhost:8888 ubuntu@192.168.2.89

之后，在浏览器输入localhost:8888即可访问。

使用jupyterlab时如果提示需要安装nodejs和npm，可通过以下指令进行安装： sudo apt-get install npm conda install -c conda-forge/label/cf202003 nodejs

Reference

安装 NVIDIA Tesla 驱动