深度学习训练终端,显存没有释放
问题描述
windows 平台训练深度学习时候,ctrl+c中断了训练,但是还是占用着显存。无法重新启动训练。
解决方法
-
如果是当前只有当前一个模型在训练
- 通过nvidia-smi 找到python 的进程id
- 通过 taskkill /pid 9396 -t 杀死进程
-
如果有多个模型在训练或者运行时
nvidia-smi无法确定哪个进程是需要杀死的进程
可以通过训练模型中占用的一个文件来杀死进程
-
打开任务管理器 -> 资源管理器 -> 关联的句柄 -> 搜索占用的文件 xxx 可以获取占用的进程。点击查找到的进程,杀死即可
我这里是训练模型时候有一个日志文件,所以可以根据上述的方式,根据日志文件名定位到需要关闭的进程。