ssh 服务突然连接不了案例总结

一台Oracle数据库服务器(Linux版本为Oracle Linux Server release 5.7)今天中午突然出现短暂的ssh连接不上的情况,ssh连接不上的时候,ping服务器正常,使用psping检测端口22也是正常(只返回5个包,没有持续ping),使用SQL Developer可以登录数据库进行任何操作,另外,通过DPA工具发现该服务器的CPU等资源消耗很低(发现数据库服务都正常后,就出去吃饭了),回来时,同事反馈ssh已经正常,错过诊断的大好时机,期间另外一个同事也做了一些检查:

检测发现ping正常,但是psping检测8088端口发现网络时延很长,甚至出现超时。他做了一个截图对比,如下所示

ping是一个网络层的协议,只是表明网络在3层是通的;tomcat是应用层协议

吃饭回来后,发现ssh已经可以正常登录服务器,检查发现这个进程已经运行了二百多天了,那么也就是说sshd服务没有死掉,sshd服务也没有重启过。

使用ps -ef | grep sshd 找到sshd的进程,执行下面命令 

[root@mylnx01~]# ps -eo pid,lstart,etime | grep 3423

3423Sun Feb 1813:56:112018234-09:01:48

检查日志信息,发现里面有几条 Did not receive identification string from xxx的信息(部分信息做了脱敏处理)。 

[root@mylnx01log]# tail -100/var/log/secure

Oct  814:50:48mylnx01 sshd[4341]: pam_unix(sshd:session): session opened foruser oracle by (uid=0)

Oct  814:50:49mylnx01 sshd[4341]: pam_unix(sshd:session): session closed foruser oracle

Oct 1012:26:41mylnx01 sshd[742]: Did not receive identification string from 192.168.xxx.xxx

Oct 1012:26:41mylnx01 sshd[743]: Did not receive identification string from 192.168.xxx.xxx

Oct 1012:26:41mylnx01 sshd[790]: Did not receive identification string from 192.168.xxx.xxx

Oct 1012:26:41mylnx01 sshd[789]: Did not receive identification string from 192.168.xxx.xxx

Oct 1012:26:41mylnx01 sshd[745]: Did not receive identification string from 192.168.xxx.xxx

Oct 1012:26:41mylnx01 sshd[744]: Did not receive identification string from 192.168.xxx.xxx

Oct 1012:26:41mylnx01 sshd[1007]: Connection closed by 192.168.xxx.xxx

Oct 1012:26:41mylnx01 sshd[1006]: Connection closed by 192.168.xxx.xxx

Oct 1012:26:41mylnx01 sshd[746]: Did not receive identification string from 192.168.xxx.xxx

搜索了一下这个错误的相关资料,一般出现错误是因为:

This one below means ssh server waited and did not receive what it needed in a timely fashion. This is typically due to connectivity issues. In an ssh connection, the server first provides its identification string, then waits for the client to then provide its identification string. If there is a loss in connection, or the client just bails, this is what you will see in the logs.

If someone uses telnet or netcat to fetch your ssh banner, or other various scans, the logs on the server side will show this as well.

这个错误信息意味着ssh服务由于没有及时收到它所需要的东西,而出现等待现象。 通常是由于连接问题造成。 在ssh连接中,服务器首先提供其标识字符串,然后等待客户端提供其标识字符串。 如果连接丢失,或者客户端刚刚退出,就会出现日志中所看到的内容。

虽然怀疑是路由问题,但是个人手头缺少网络监控方面的详实证据,但是也有一些佐证的证据:最近两地网络问题蛮多,前天还发现网络掉包比较严重,网络管理员找供应商反馈过,但是后面也不清楚什么情况。因为这方面的事情不归我处理。

对于ssh连接不了的排错,其实有不少系统的排查方法,下面这三篇博客非常精彩,此处就不班门弄斧,有兴趣的可以直接看看这些文章。

欢迎工作一到五年的Java工程师朋友们加入Java架构开发: 854393687

群内提供免费的Java架构学习资料(里面有高可用、高并发、高性能及分布式、Jvm性能调优、Spring源码,MyBatis,Netty,Redis,Kafka,Mysql,Zookeeper,Tomcat,Docker,Dubbo,Nginx等多个知识点的架构资料)合理利用自己每一分每一秒的时间来学习提升自己,不要再用"没有时间“来掩饰自己思想上的懒惰!趁年轻,使劲拼,给未来的自己一个交代!

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • rljs by sennchi Timeline of History Part One The Cognitiv...
    sennchi阅读 12,167评论 0 10
  • 加密算法 对称加密算法 加密和解密使用同一个密钥 DES、3DES、AES、Blowfish、Twofish、ID...
    毛利卷卷发阅读 5,555评论 0 4
  • 看到这些,我一生就不平凡 惊呆!女朋友是第一次炖菜 这么高科技居然沉沦了! 给你说一个字的机会是啥? 待春暖花开日...
    搞笑精选app阅读 818评论 0 0
  • 一年一度的教师节又到了,虽然已离开校园多年,但每到这个节日不免还是会想起那些曾经教导过自己,给予自己莫大帮助的良师...
    闲着嘛阅读 5,585评论 0 0
  • 我是不是不会谈恋爱了 我是不是开始步入平淡生活 我是不是觉得对方必须得跟我一样享受平淡 我是不是太过依赖孤独 我是...
    是我啊啊吗吗阅读 1,418评论 0 0

友情链接更多精彩内容