1、系统中查看GPU信息
lspci | grep -i nvidia
2、下载NVIDIA Tesla A100驱动
通过lspci查询到GPU的型号之后,访问官网nvidia.com
下载驱动程序可以按照如下选择,选择产品类型、系列、型号、然后根据自己的操作系统来选择。
注意:如果操作系统是Linux,尽量选择Linux 32-bit/Linux 64-bit,不需要选择详细的Linux发行版本。测试是发现选择详细的Linux发行版本,安装驱动之后,找不到nvidia-smi命令。
3、安装gcc等依赖包
当安装GPU驱动时,提示缺少相关的依赖包,在此,我们需要提前安装相关的依赖包,目前需要用到的是gcc , g++ , make :
yum -y install gcc gcc-c++ kernel-devel make
4、屏蔽nouveau开源版本的GPU驱动
当系统安装完成之后,会安装系统开源的NVIDIA驱动版本,名称为nouveau。查看nouveau驱动是否加载。
lsmod |grep -i nouveau
下面将屏蔽该驱动。编辑/etc/default/grub文件,修改GRUB_CMDLINE_LINUX一行:
cat /etc/default/grub
5、保存退出,更新grub:
grub2-mkconfig -o /boot/grub2/grub.cfg
grub2-mkconfig -o /boot/grub2/grub.efi.cfg
6、编辑/lib/modprobe.d/dist-blacklist.conf,把 blacklist nvidiafb 改成 #blacklist nvidiafb,然后在最下面添加blacklist nouveau和options nouveau modeset=0。
7、备份initrams并使用dracut重新建立initramfs并重启系统:
mv /boot/initramfs-$(uname -r).img /boot/initramfs-$(uname -r).img.bak
dracut -v /boot/initramfs-$(uname -r).img $(uname -r)
reboot
8、查看nouveau模块是否加载,不显示的话就表示已经禁用:
lsmod | grep nouveau
9、安装NVIDIA GPU驱动
安装下载的GPU驱动:NVIDIA-Linux-x86_64-510.47.03.run ,目前驱动版本为:460.106,如下执行该驱动文件,即可安装。
./NVIDIA-Linux-x86_64-460.106.00.run
10、输入nvidia-smi来查看是否可以看到GPU信息:
nvidia-smi
11、安装CUDA 11.6
访问nvidia官网,下载CUDA,cuda的链接为:https://developer.nvidia.com/cuda-downloads
选择runfile文件来安装。
wget https://developer.download.nvidia.com/compute/cuda/11.6.0/local_installers/cuda_11.6.0_510.39.01_linux.run
sudo sh cuda_11.6.0_510.39.01_linux.run
12、创建环境变量,编辑~/.bashrc文件:
vim ~/.bashrc
export CUDA_HOME=/usr/local/cuda
export PATH=$PATH:$CUDA_HOME/bin
export LD_LIBRARY_PATH=/usr/local/cuda-11.6/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}
13、为nvcc命令创建一个软连接到/usr/bin目录:
sudo ln -s /usr/local/cuda/bin/nvcc /usr/bin/nvcc
14、使用nvcc命令查看cuda的版本:
nvcc --version