TensorFlow训练时ResourceExhaustedError错误

问题描述

这两天在服务器训练TensorFlow时,时不时报出“tensorflow.python.framework.errors_impl.ResourceExhaustedError
”的错误信息,伴随有大量的其他log,搜了一下说是可能资源不足,查了一下显卡、内存资源发现都是够用的,很奇怪,过了一天再链接服务器训练发现又可以了,训练了一天又报出了相同错误。而且不单单是在已有模型基础上训练有这个错误,新建模型训练也会报同样的错误。

问题解决

后来突然想到,资源不够也可能是硬盘资源不足,查了一下发现真的是硬盘满了,潜意识里一直觉得服务器的硬盘资源是不用操心的,结果忽略了这个可能。。。

清除一些文件得到空间后,就可以继续正常的训练了。

查询服务器各个资源情况的命令:命令查看Linux服务器内存、CPU、显卡、硬盘使用情况


查看作者首页

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容