云主机 CentOS Kernel Hung住处理办法

故障描述:

云主机无法ssh及ping通,VNC查看提示“echo 0 > /proc/sys/kernel/hung_task_timeout_secs disables this message”

VNC截图

处理过程:

1.重启云主机进行恢复无效,怀疑云主机底层资源有问题

2.查看宿主机上云主机的磁盘进程,有ntp未结束进程,sudo kill -9 $PID 将所有进程杀死

climc server-syncstatus 后台同步状态

climc server-start

3.进入云主机排查

sar -r 查看内存利用率,是否有大量free

sar -u 查看CPU利用率

4.如果没有core dump,可以检查/var/log/message,搜索“echo 0 > /proc/sys/kernel/hung_task_timeout_secs” disables this messageand“blocked for more than 120 seconds”

结论:

内存数据落盘时引发的故障

默认情况下,Linux会最多使用40%的可用内存作为文件系统缓存。当超过这个阈值后,文件系统会把将缓存中的内存全部写入磁盘, 导致后续的IO请求都是同步的。将缓存写入磁盘时,有一个默认120秒的超时时间。 出现上面的问题的原因是IO子系统的处理速度不够快,不能在120秒将缓存中的数据全部写入磁盘。IO系统响应缓慢,导致越来越多的请求堆积,最终系统内存全部被占用,导致系统失去响应。

另外,在进程处理于可中断的睡眠状态S 时<需要看dump>,进程要等待 如 套接字、信号量被挂起,进入到对应事件等待队列中的的这个时间太长,占用了队列空间使进程长时间处于阻塞状态,影响了进程队列的有序调度

规避方法:

根据应用程序情况,对vm.dirty_ratio,vm.dirty_background_ratio两个参数进行调优设置。

推荐如下设置:

# sysctl -w vm.dirty_ratio=10

# sysctl -w vm.dirty_background_ratio=5

# sysctl -p

如果系统永久生效,修改/etc/sysctl.conf文件。加入如下两行:

#vi /etc/sysctl.conf

vm.dirty_background_ratio = 5

vm.dirty_ratio = 10

重启系统生效。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • linux性能分析及调优__cpu 性能瓶颈调优可调性能参数 、内存性能瓶颈可调性能参数(操作系统设置swap的目...
    bailongxian阅读 4,042评论 0 3
  • 本文只讨论Linux下文件的读写机制,不涉及不同读取方式如read,fread,cin等的对比,这些读取方式本质上...
    楚客阅读 9,155评论 0 4
  • 背景:MySQL优化是永恒的主题,​DBA的存在意义有很大一部分原因是因为要优化MySQL。我们应该从各个层面去优...
    PennLi阅读 6,075评论 0 1
  • 1.1 资料 ,最好的入门小册子,可以先于一切文档之前看,免费。 作者Antirez的博客,Antirez维护的R...
    JefferyLcm阅读 17,221评论 1 51
  • 感谢老师的内推,昨天有幸参加了 TW 的面试,怎么说呢,从昨天面试回来到现在心情久久不能平静,一句话说就是感觉身体...
    你叫呆小瓜阅读 8,020评论 2 1

友情链接更多精彩内容