1.代码已经停止了,GPU还在跑的情况。已经ctrl + C停止了,GPU进程没有撤下。
nvidia-smi
find the PID of the process running on the corresponding GPU
kill -9 {PID}. e.g, kill -9 10190
2. putty连接一段时间自动关闭
在使用putty连接远程服务器时经常遇到连接自动断开的困扰。
我们可以设置Connection中的Seconds between keepaliaves选项让putty每隔一段时间给远程服务器发送一个空数据包来保持连接。
具体的设置可以是:
将Seconds between keepaliaves设为10并选中下面两个复选框。
3. libcudnn9.0 can not find:
tensorflow版本與CUDA版本不匹配。這種情況下,一般直接升/降級tensorflow就行。如果更換CUDA,比較麻煩,安裝之後還是不要變了。
可能是CUDA安裝之後的路徑沒有配置好。參考新增連結描述,執行以下命令即可。
exportLD_LIBRARY_PATH=LD_LIBRARY_PATH:/usr/local/cuda-9.0/lib64/source.bashrc
4. conda init xxxx. CommandNotFoundError: Your shell has not been properly configured to use 'conda activate'.
上次ssh连接该服务器使用conda activate python36命令激活环境后未使用conda deactivate退出环境就关闭终端导致的。
# 重新进入虚拟环境 source activate
# 退出虚拟环境 conda deactivate
重新执行conda activate python36,没有报错,成功进入该虚拟环境。
5.在出现上述4)问题前,可能会出现conda command not found:
Try adding below line to your .bashrc file
export PATH=~/anaconda3/bin:$PATH
6.libcudnn9.0 can not find:
export PATH=/usr/local/cuda/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH
to /etc/profile
7.加载tensorflow出现一长串warning
问题原因:tensorflow numpy 的版本大于1.17.
用sudo pip3 uninstall numpy, sudo pip3 install numpy=1.17
没有用,显示numpy=1.16没有安装成功
尝试用pip uninstall numpy既可以
在anaconda3 虚拟环境下安装numpy包用pip install/uninstall而不是pip3 install/uninstall命令。而且前面不需要加sudo
8. InvalidArgumentError (see above for traceback): You must feed a value for placeholder tensor 'item_lists_pos' with dtype int64 and shape [?,10]
print(sess.run(self.item_list_pos,feed_dict))忘记给出另一个参数feed_dict。
9