2022-08-22 深度学习训练终端,显存没有释放

深度学习训练终端,显存没有释放

问题描述

windows 平台训练深度学习时候,ctrl+c中断了训练,但是还是占用着显存。无法重新启动训练。

解决方法

  • 如果是当前只有当前一个模型在训练

    • 通过nvidia-smi 找到python 的进程id
    • 通过 taskkill /pid 9396 -t 杀死进程
  • 如果有多个模型在训练或者运行时

    • nvidia-smi无法确定哪个进程是需要杀死的进程

    • 可以通过训练模型中占用的一个文件来杀死进程

    • 打开任务管理器 -> 资源管理器 -> 关联的句柄 -> 搜索占用的文件 xxx 可以获取占用的进程。点击查找到的进程,杀死即可


      image.png

我这里是训练模型时候有一个日志文件,所以可以根据上述的方式,根据日志文件名定位到需要关闭的进程。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容