一、安装GPU驱动
在使用GPU云服务时,可以在创建服务器时选择预装特定版本驱动和CUDA镜像。但是,如果自己购买一台服务器,或者创建时忘记预装驱动,那么就需要自己去NVIDIA官网下载对应驱动。下面以Ubuntu操作系统,NVIDIA Tesla P40为例,具体讲解如何安装驱动(确保具有sudo权限)。
1.查看当前系统中是否已安装dkms
dpkg -l | grep -i dkms
出现以下结果表明已安装dkms
如果返回为空,则表明未安装dkms,执行以下指令进行安装
apt-get install dkms
2.检查NVIDIA驱动依赖gcc和linux-kernel-headers
通过以下指令查看gcc和linux-kernel-headers是否安装
dpkg -l | grep -i gcc
dpkg -l | grep -i linux-headers
如果返回如下结果,表示已安装
若返回为空,则表明未安装,执行以下命令进行安装
sudo apt-get install gcc linux-kernel-headers
3.下载NVIIDA驱动
首先,前往NVIDIA Driver Downloads下载对应的驱动。我自己使用的是Tesla P40,选项如下
这里的CUDA Toolkit最新版本是11.7,我选择11.6版本是因为Pytorch官网目前支持到11.6,为了不必要的麻烦尽量选择和深度学习框架匹配的版本。
接着,选择SEARCH进入下载页面。在DOWNLOAD右击选择复制链接地址。
最后,在终端使用wget
指令,黏贴链接地址进行安装包下载。
4.安装驱动
在安装之前,需要修改安装包权限。通过以下指令修改(xxx替换为实际驱动版本号):
chmod +x NVIDIA-Linux-x86_64-xxxx.run
执行驱动安装指令。
sudo sh NVIDIA-Linux-x86_64-xxxx.run --ui=none --disable-nouveau --no-install-libglvnd --dkms -s
- 安装完成后,通过指令
nvidia-smi
进行验证。
二、安装Anaconda
1.安装包下载
Anaconda下载地址:Anaconda Installers
根据自己使用的操作系统选择对应的安装包,右键选择复制链接地址。在服务器终端使用wget进行下载
2.Anaconda安装
进入下载路径,执行bash ./xxx
进行安装,其中xxx表示步骤一下载的安装包。直接回车键即可安装。
安装结束终端命令行前会带(base)
,此时表示conda环境以激活。
3.Conda常用指令
- 显示当前已经创建的Python环境:
conda env list
- 创建环境名为
env_name
的虚拟环境:conda create -n env_name python=3.8
- 进入环境:
conda activate env_name
- 删除环境:
conda remove -n env_name —all
三、启动Jupyter-lab
1.服务器端启动jupyter-lab
为了让jupyter-lab能够正常后台运行,通常搭配screen一起使用。screen的具体使用方法参考:Linux screen命令
(1) 创建screen: screen -S
screen_name
(2) 启动jupyter-lab服务:jupyter-lab --no-browser --port=8888 --ip=0.0.0.0
* port:用于指定具体的端口号
* ip:当服务器有公网ip地址时,可以直接通过公网ip加端口号进行访问,例如:1.12.32.1:8888
服务启动后将输出的token保存,后面jupyterlab会使用该token进行登陆。
(3) 退出screen:control+a+d
2.本地端远程连接
(1) 启动服务时如果添加了ip参数,即可直接通过ip地址加端口号进行访问,例如1.12.32.1:8888。
(2) 如果服务器防火墙没有开放对应端口,此时可以通过端口映射进行访问。具体步骤如下:
首先,将远程8888端口映射到本地对应端口
ssh -N -f -L localhost:8888:localhost:8888 ubuntu@192.168.2.89
之后,在浏览器输入localhost:8888
即可访问。
使用jupyterlab时如果提示需要安装nodejs和npm,可通过以下指令进行安装:
sudo apt-get install npm conda install -c conda-forge/label/cf202003 nodejs