深度学习GPU服务器环境配置(Nvidia-384.183+cuda9.0+cudnn7.0)

这几天在跑深度学习有关的代码，弄了一个GPU，找了很多博客去了解如何使用配置才可以使我的代码可以使用GPU去跑。在这一天的忙碌中，终于在晚上把这事搞定了。或许大家会疑惑一个"简单"配置为什么要搞这么久，-_-|| 因为大多资料都是关于Ubuntu系统的配置，关于Centos的资料挺少的，为此，特地记录下本次的配置过程与踩过的坑，留给大家参考。话不多说，开始本教程吧！

1.系统环境与软件版本

系统版本：cento7.5
内核版本：3.10.0-862.el7.x86_64
软件版本：cuda9.0与cudnn7.0
显卡驱动：Nvidia-384.183
cuda9.0具体包名：cuda-repo-rhel7-9-0-local-9.0.176-1.x86_64.rpm
cudnn7.0具体包名：cudnn-9.0-linux-x64-v7.tgz

要注意版本的对应性，此处cuda9.0，所以cudnn选择的是cudnn7.0 for cuda9.0即cudnn-9.0-linux-x64-v7.tgz。

2.相应软件包查询与获取

2.1 查看当前系统版本：

系统中输入指令cat /etc/redhat-release，结果图示例：

image.png

2.2 查看内核版本

输入指令uname -r，结果图示例：

image.png

可以看到我们系统当前的内核版本，如我的为3.10.0-862.el7.x86_64

2.3 检测是否含有GPU

输入指令lspci | grep -i nvidia，结果示例图：

image.png

可以看到我们系统是否含有GPU，其中图中的Tesla P40是我的GPU对应的版本；

2.4 获取对应版本的显卡驱动

在知道我们的GPU型号后可以去以下网址拿到对获取对应的显卡驱动：点此查询
界面如下图所示：

image.png

图中主要是选择我们的GPU类型，比如我的是Tesla的，P系列的Tesla P40的GPU，上图忘记选择cuda9.0了，大家注意选择哈！因为tensorflow是基于cuda9.0的，貌似不支持cuda10(参考他人博客的，有误望指出)

点击右下方的SEARCH，跳转到如下页面后，点击DOWNLOAD下载即可。

image.png

使用xftp将显卡驱动上传到我们的服务器中。

image.png

2.5 获取cuda9.0

下载地址：点此下载
按自己系统版本进行选择，选择示例如下图：

image.png

下载完后同样用xftp上传到我们的服务器中。

2.6 获取cudnn7.0

第一种方法：使用压缩包安装

在服务器中输入如下指令，下载对应的压缩包(即cuda9.0对应的cudnn7.0)
wget http://developer.download.nvidia.com/compute/redist/cudnn/v7.0.5/cudnn-9.0-linux-x64-v7.tgz
下载结果示例图：

image.png

更多类型的cudnn系列下载地址参考此处：点此查看

第二种方法：
注意：此处我亲测的是第一种方法的安装法师，第二种方法的话需要大家尝试哈！此处写出来是为了提供该官网下载地址。去NVIDIA官网下载cuda7.0，需要注册账号登录后才可下载：点此下载

3. 开始安装

3.1 安装前准备工作

yum安装epel、aliyun、elrepo源

yum -y install https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm
yum -y install epel-release
wget -O /etc/yum.repos.d/CentOS-Base.repo http://mirrors.aliyun.com/repo/Centos-7.repo
rpm --import https://www.elrepo.org/RPM-GPG-KEY-elrepo.org
rpm -Uvh https://www.elrepo.org/elrepo-release-7.0-3.el7.elrepo.noarch.rpm

安装gcc、gcc-c++编译器
若已存在则不需要安装
yum –y install gcc
yum -y install gcc-c++

禁用系统自带的nouveau驱动
1）编辑文件vi /etc/default/grub 在其中添加rd.driver.blacklist=nouveau nouveau.modeset=0到GRUB_CMDLINE_LINUX后面，如下图：

image.png

2）输入以下指令生成新的grub配置
grub2-mkconfig -o /boot/grub2/grub.cfg
3）编辑/etc/modprobe.d/blacklist.conf(如果不存在则创建)，并添加blacklist nouveau
vi /etc/modprobe.d/blacklist.conf
示例图：

image.png

检查内核版本是否一致
这一步如果不做好的话(即内核版本不一致)，在安装显卡驱动时就会遇到下图类似的错误：

image

为此，我们需要检查一下当前运行内核版本与/usr/src/kernels目录下的kernel源码版本是否一致。

检查当前运行内核版本uname -r，结果示例如下图：

image.png

检查/usr/src/kernels目录下的kernel源码版本
cd /usr/src/kernels
ls

image.png

可以看到有对应的版本3.10.0-862.el7.x86_64。其实我之前就踩了这个坑，该文件夹下并没有3.10.0-862.el7.x86_64，只有3.10.0-957.21.3.el7.x86_64版本的源码，导致我装显卡驱动一致失败。

若版本一致，则可以继续进行下一步了(忽略下面版本不一致时候的操作)。

若无对应版本的内核源码，可以在此处下载：点此下载

找到与自己系统运行源码版本一致的包，如我的查找的包为：

image.png

使用xftp将该包传到服务器中，并cd到存储该包的文件夹中，执行以下指令：
yum -y install kernel-3.10.0-862.14.4.el7.x86_64.rpm

cd /usr/src/kernels并查看文件夹是否安装成功。

重启使刚才的禁用配置生效
reboot

3.2 安装cuda9.0

cd到我们存放cuda-repo-rhel7-9-0-local-9.0.176-1.x86_64.rpm的文件夹中，执行安装命令：
rpm -i cuda-repo-rhel7-9-0-local-9.0.176-1.x86_64.rpm
yum clean all
yum -y install cuda

cuda的默认安装路径如下：/usr/local/cuda

image.png

设置cuda环境变量
vi /etc/profile
添加以下内容到末尾：

export CUDA_HOME=/usr/local/cuda
export LD_LIBRARY_PATH=$CUDA_HOME/lib64:$CUDA_HOME/extras/CUPTI/lib64:$LD_LIBRAY_PATH
export PATH=$CUDA_HOME/bin:$PATH

使配置文件生效：source /etc/profile

3.3 安装cudnn7.0

cd到我们的压缩包存放文件夹中，解压
tar -zxvf cudnn-9.0-linux-x64-v7.tgz
结果如图所示：

image.png

将cuda中的文件复制到cuda toolkit目录中，然后更改文件权限：
sudo cp cuda/include/cudnn.h /usr/local/cuda/include
sudo cp cuda/lib64/libcudnn* /usr/local/cuda/lib64
sudo chmod a+r /usr/local/cuda/include/cudnn.h /usr/local/cuda/lib64/libcudnn*

至此cuda与cudnn安装完成。

3.4 安装tensorflow-gpu

yum -y install python-pip
pip install --upgrade pip
pip install tensorflow-gpu==1.10.1

之所以安装1.10.1是因为之前安装1.11.1时，导入tensorflow包使用时会产生段错误：

image.png

起初以为是cudnn版本问题，但实际是tensorflow-gpu版本过高了，降低为1.10.1就好了。

3.5 验证cuda和cudnn安装无误

进入到python shell，输入以下代码
import tensorflow
按回车，若无报错说明cuda与cudnn已经安装好了。

3.6 安装NVIDIA显卡驱动

重做inittramfs镜像：
cp /boot/initramfs-$(uname -r).img /boot/initramfs-$(uname -r).img.bak
dracut /boot/initramfs-$(uname -r).img $(uname -r)

cd到驱动所在目录：
chmod +x NVIDIA-Linux-x86_64-384.183.run
./NVIDIA-Linux-x86_64-384.183.run --kernel-source-path=/usr/src/kernels/3.10.0-862.el7.x86_64/

执行后就开始安装驱动了，
接受许可：

image.png

检查驱动安装情况nvidia-smi，出现如下页面说明已经成功了。

image.png

至此，全部安装已经完成了！可以happy的使用GPU了！

参考

显卡驱动安装：https://blog.csdn.net/xueshengke/article/details/78134991

cudnn压缩包：https://blog.csdn.net/xiangxianghehe/article/details/79177833

导入tensorflow报错解决：https://blog.csdn.net/u014561933/article/details/80201552

官方安装文档：https://docs.nvidia.com/deeplearning/sdk/cudnn-install/index.html#install-linux

https://docs.nvidia.com/deeplearning/sdk/cudnn-install/index.html#install-linux

https://docs.nvidia.com/cuda/cuda-installation-guide-linux/index.html

cudnn报错解决：https://blog.csdn.net/jy1023408440/article/details/82887479

环境服务搭建：https://www.jianshu.com/p/bc9c054d1767

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,362评论 5赞 477
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,330评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,247评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,560评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,580评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,569评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,929评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,587评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,840评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,596评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,678评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,366评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,945评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,929评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,165评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 43,271评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,403评论 2赞 342

深度学习GPU服务器环境配置(Nvidia-384.183+cuda9.0+cudnn7.0)

1.系统环境与软件版本

2.相应软件包查询与获取

2.1 查看当前系统版本：

2.2 查看内核版本

2.3 检测是否含有GPU

2.4 获取对应版本的显卡驱动

2.5 获取cuda9.0

2.6 获取cudnn7.0

3. 开始安装

3.1 安装前准备工作

3.2 安装cuda9.0

3.3 安装cudnn7.0

3.4 安装tensorflow-gpu

3.5 验证cuda和cudnn安装无误

3.6 安装NVIDIA显卡驱动

参考

推荐阅读更多精彩内容