模拟一次linux 高CPU 占用
通过linux top 命令 发现了linux 服务器 占用 很高,出现了故障。
在生产环境中,如何来定位问题呢?
如果发现是我们的应用程序问题,如何快速定位到应用代码?
1 .top命令 发现问题
通过top 命令 结果 发现 CPU 占用很高,PID = 12023 ,是我们的java 项目 程序。
这种情况 我们就不能 简单的 把进程 给kill 掉,需要找到具体的原因所在。(故障 是我故意模拟的)
2. 进一步确认问题
通过top 命令 可以发现是一个java 项目导致的 cpu 过高,如果我们服务器上 运行者不止一个java服务,怎么定位到具体的java项目?
通过 ps -aux |grep PID命令
ps aux |grep 12023
通过 结果发现,是由于 demo-0.0.1-SHAPSHOT.jar 这个项目的,那么我们就可以知道具体的是什么java应用了。
3. 定位到线程
定位到项目,还需要定位到具体是哪个线程导致的这个CPU 占用过高。
执行命令 ps -mp pid -o THREAD,tid,time 展示进程下所有线程。
ps -mp 12023 -o THREAD,tid,time
通过结果发现线程id 为 12241 的线程占用了 97.5 % 的cpu 。
4. 打印堆栈信息
如果能看到出现问题的线程的堆栈信息,我们就可以定位到项目中出现问题的代码啦。
java 为我们提供了 一个 jstack 工具 可以查看运行时 线程堆栈信息。
jstack PID
这样就是打印出 这个进程下所有的 线程的堆栈信息,数据太多需要过滤一下
首先需要把 十进制的线程id 转换为 十六进制格式的
printf "%x\n" 12241
结果:2fd1
然后执行命令
jstack 12023 |grep 2fd1 -A60
看到了熟悉的堆栈信息,找到一行 我们的项目信息 :
at com.example.demo.controller.HelloController$1.run(HelloController.java:236)
问题就出现在 HelloController.java:236这行代码中。
到项目代码中看看怎么回事。
是这里有个循环,当然是我自己故意搞的。
定位到代码,就是大功告成了。
5. 总结
遇到生产环境的高CPU占用,如果是项目的问题,就可以通过这种方式定位到问题所在。
整理下步骤
- top 发现问题 找到PID。
- ps aux | grep PID 查看具体 程序。
- ps -mp &PID -o THREAD,tid,tim; 定位到问题线程id。
- printf "%x\n" tid; 转换 tid 为 16进制格式。
- jstack PID | grep tid -A60 ,打印堆栈信息 ,定位问题代码。