参考:
pytorch docker 官方 here
Torch-TensorRT repo 官方 here
Torch-TensorRT 文档 here
TensorRT repo 官方 here
NVIDIA-docker2 文档 here
报错 [gpu]...
解决(nvidia-docker2) here
docker卸载和安装 here
环境搭建
- docker uninstall install
First uninstall :
https://blog.csdn.net/qq_41985134/article/details/120653645
remember to set user sudo, delete "apt autoremove ... '-' "
Then directly install this :
https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/install-guide.html
卸载 nvidia-docker:
# Vscode sudo error https://www.jb51.net/article/216148.htm:
sudo groupadd docker #添加docker用户组
sudo gpasswd -a $USER docker #将当前用户添加至docker用户组
newgrp docker #更新docker用户组
- 第一种方法,docker里开发
装完nvidia-docker2后,
docker run -p 7777:8888 --gpus all -it --rm -v /home/gzy:/home nvcr.io/nvidia/pytorch:22.01-py3
jupyter notebook
浏览器localhost:7777
或者先pull再run:
sudo docker pull nvcr.io/nvidia/pytorch:22.01-py3
docker run -p 7777:8888 --gpus all -it --rm -v /home/gzy:/home nvcr.io/nvidia/pytorch:22.01-py3
docker run --gpus all --ipc=host --ulimit memlock=-1 --ulimit stack=67108864
docker run -p 7777:8888 --gpus all --ipc=host --ulimit memlock=-1 --ulimit stack=67108864 -it --rm -v /home/gzy:/home nvcr.io/nvidia/pytorch:22.01-py3
docker images
查看本地镜像
报错: 可能是宾馆网络有墙的原因,换成手机4G热点就可以了;之前在香港也能直接下载;
1. retrying in 10 seconds
2. docker read: connection reset by peer
3. snap装的docker重启后不好用了,snap remove 卸载后 apt install 重装,镜像名恢复正常(22.05,之前显示21.12可能是残留的信息)
- 第二种方法,ubuntu本地编译
参考 Torch-TensorRT repo,电脑的nvidia driver、cuda、cudnn版本最好和pytorch docker里的一样;先安装bazel,再用bazel编译