卷积网络的量化和部署是重要环节,以前我们训练好模型后直接trace进行调用,参考(C++ windows调用ubuntu训练的PyTorch模型(.pt/.pth),windows+VS2019+PyTorchLib配置使用攻略)。很多大佬都说TensorRT的推理效果更好,自己也想试一下。历尽千辛万苦,终于弄好了~~~ 供大家参考。
准备
确认CUDA安装正确,可使用如下命令:
>nvcc --version
nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2019 NVIDIA Corporation
Built on Wed_Oct_23_19:24:38_PDT_2019
Cuda compilation tools, release 10.2, V10.2.89
如果不对,就参考ubuntu18.04+CUDA10.0+cuDNN+Tensorflow配置全解自己先配一下吧
1.TensorRT SDK下载
账号大家肯定都有了~~选择正确的版本下载。比如:此次编译的系统环境是cuda-10.2 + cuDNN-8.1,所以下载的是
TensorRT-7.2.3.4.Ubuntu-18.04.x86_64-gnu.cuda-10.2.cudnn8.1.tar.gz
下载后的文件放到目录 ~/softwares
下并解压,再更新环境变量。完整的命令操作如下:
# 创建存放软件的目录
mkdir -p ~/softwares
# 把下载得到的文件移动到~/softwares目录下
mv TensorRT-7.2.3.4.Ubuntu-18.04.x86_64-gnu.cuda-10.2.cudnn8.1.tar.gz ~/softwares
# 进入目录
cd ~/softwares
# 解压文件
tar -xvzf TensorRT-7.2.3.4.Ubuntu-18.04.x86_64-gnu.cuda-10.2.cudnn8.1.tar.gz
解压文件后,需要更新环境变量以方便后面的操作sudo gedit ~/.bashrc
# 定义TensorRT SDK所在的位置,方便后面的操作
export TRT_RELEASE=~/softwares/TensorRT-7.2.3.4
# 更新链接库,后面编译时才能正确编译
export LD_LIBRARY_PATH=$TRT_RELEASE/lib:$LD_LIBRARY_PATH
2.TensortRT 源码下载
- 这是下载的TensorRT包含有用的一些插件和解析库。和前面的TensorRT SDK不一样
- 这里一定要注意版本要求!!!我就是没仔细看吃了大亏,/(ㄒoㄒ)/~~
尤其要注意CUDA和cudnn的版本匹配关系!!很多人都是cuda都是装好的再来装TRT,一定要看清楚!! - 注意CMake 的版本,ubuntu18.04默认安装的CMake版本是3.10不满足要求,我是自己下载的CMake的源码进行的安装,也很简单。github CMake
- 如果编译ONNX报错,可以自己源码下载编译安装。github onnx-tensorrt
逐步进行如下操作
# 创建存放源代码的目录
mkdir -p ~/repos
# 进入目录
cd ~/repos
# 把源代码放到目录~/repos下 ,我用的master
git clone https://github.com/nvidia/TensorRT TensorRT
cd TensorRT
git submodule update --init --recursive
注意!!!
- 最后一句话可能会因为网络的原因停止下载,多试几次就好了~~
- 源码有很多
submodule
可能下载不下来,可以手动在github
上单独下载,然后放到对应的文件夹下即可
# 创建用于编译的目录
mkdir build
# 进入编译目录
cd build
# 生成Makefile
cmake .. -DTRT_LIB_DIR=$TRT_RELEASE/lib -DTRT_OUT_DIR=./out -DCUDA_VERSION=10.2
# 开始多线程编译
# 编译完成后,生成的文件都在~/repos/TensorRT/build/out中
make -j$(nproc)
# 将生成的库文件复制到$TRT_RELEASE/lib目录下
# 将生成的可执行文件复制到$TRT_RELEASE/bin目录下
make install
# 编译成功后根据python的版本安装TensorRT的python扩展
#conda activate py37
pip install $TRT_RELEASE/python/tensorrt-7.2.3.4-cp37-none-linux_x86_64.whl
make
的过程中可能会报错,不要害怕!首先排查版本是否匹配,然后在确认submodule
是否都下载下来了,我就出现过问题,报错一直查不到,结果是因为少了一个文件夹,非常坑爹~~就是有个optimized.h
,骂街了。。。。
3.验证
根据官网https://docs.nvidia.com/deeplearning/tensorrt/install-guide/可以查看详细的安装方法。输入以下指令进行验证。
>python3
>>> import tensorrt
>>> print(tensorrt.__version__)
>>> assert tensorrt.Builder(tensorrt.Logger())
If the final Python command fails with an error message similar to the error message below, then you may not have the NVIDIA driver installed or the NVIDIA driver may not be working properly. If you are running inside a container, then try starting from one of the nvidia/cuda:x.y-base-<os>
containers.
[TensorRT] ERROR: CUDA initialization failure with error 100. Please check your CUDA installation: ...
如果出现上述问题,应该是NVIDIA Driver版本太低的问题,把驱动升级为最新版本的就OK了~~(我因为这个找了好久,苍天见怜啊~~)
[参考链接]
https://zhuanlan.zhihu.com/p/181274475
https://github.com/NVIDIA/TensorRT/issues?q=CUDA+initialization+failure
https://blog.csdn.net/dou3516/article/details/108314908
https://zhuanlan.zhihu.com/p/59618999
https://github.com/onnx/onnx-tensorrt/issues/355