深度学习服务器常用配置

一、安装GPU驱动

在使用GPU云服务时,可以在创建服务器时选择预装特定版本驱动和CUDA镜像。但是,如果自己购买一台服务器,或者创建时忘记预装驱动,那么就需要自己去NVIDIA官网下载对应驱动。下面以Ubuntu操作系统,NVIDIA Tesla P40为例,具体讲解如何安装驱动(确保具有sudo权限)。

1.查看当前系统中是否已安装dkms

dpkg -l | grep -i dkms

出现以下结果表明已安装dkms

图1.png

如果返回为空,则表明未安装dkms,执行以下指令进行安装

apt-get install dkms

2.检查NVIDIA驱动依赖gcc和linux-kernel-headers

通过以下指令查看gcc和linux-kernel-headers是否安装

dpkg -l | grep -i gcc
dpkg -l | grep -i linux-headers

如果返回如下结果,表示已安装

图2.png

若返回为空,则表明未安装,执行以下命令进行安装

sudo apt-get install gcc linux-kernel-headers

3.下载NVIIDA驱动

首先,前往NVIDIA Driver Downloads下载对应的驱动。我自己使用的是Tesla P40,选项如下

图3.png

这里的CUDA Toolkit最新版本是11.7,我选择11.6版本是因为Pytorch官网目前支持到11.6,为了不必要的麻烦尽量选择和深度学习框架匹配的版本。

接着,选择SEARCH进入下载页面。在DOWNLOAD右击选择复制链接地址。

图4.png

最后,在终端使用wget指令,黏贴链接地址进行安装包下载。

图5.png

4.安装驱动

在安装之前,需要修改安装包权限。通过以下指令修改(xxx替换为实际驱动版本号):

chmod +x NVIDIA-Linux-x86_64-xxxx.run

执行驱动安装指令。

sudo sh NVIDIA-Linux-x86_64-xxxx.run --ui=none --disable-nouveau --no-install-libglvnd --dkms -s
  1. 安装完成后,通过指令nvidia-smi进行验证。
    图6.png

二、安装Anaconda

1.安装包下载

Anaconda下载地址:Anaconda Installers

图7.png

根据自己使用的操作系统选择对应的安装包,右键选择复制链接地址。在服务器终端使用wget进行下载

图8.png

2.Anaconda安装

进入下载路径,执行bash ./xxx进行安装,其中xxx表示步骤一下载的安装包。直接回车键即可安装。

安装结束终端命令行前会带(base),此时表示conda环境以激活。

3.Conda常用指令

  • 显示当前已经创建的Python环境:conda env list
  • 创建环境名为env_name的虚拟环境:conda create -n env_name python=3.8
  • 进入环境:conda activate env_name
  • 删除环境:conda remove -n env_name —all

三、启动Jupyter-lab

1.服务器端启动jupyter-lab

为了让jupyter-lab能够正常后台运行,通常搭配screen一起使用。screen的具体使用方法参考:Linux screen命令

(1) 创建screen: screen -S screen_name

(2) 启动jupyter-lab服务:jupyter-lab --no-browser --port=8888 --ip=0.0.0.0

*   port:用于指定具体的端口号
*   ip:当服务器有公网ip地址时,可以直接通过公网ip加端口号进行访问,例如:1.12.32.1:8888

服务启动后将输出的token保存,后面jupyterlab会使用该token进行登陆。

(3) 退出screen:control+a+d

2.本地端远程连接

(1) 启动服务时如果添加了ip参数,即可直接通过ip地址加端口号进行访问,例如1.12.32.1:8888。

(2) 如果服务器防火墙没有开放对应端口,此时可以通过端口映射进行访问。具体步骤如下:

首先,将远程8888端口映射到本地对应端口

ssh -N -f -L localhost:8888:localhost:8888 ubuntu@192.168.2.89

之后,在浏览器输入localhost:8888即可访问。

使用jupyterlab时如果提示需要安装nodejs和npm,可通过以下指令进行安装: sudo apt-get install npm conda install -c conda-forge/label/cf202003 nodejs

Reference

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容