Arthas是阿里开源的Java诊断工具,相比JDK内置的诊断工具,要更人性化,并且功能强大,可以实现许多问题的一键定位,而且可以一键反编译类查看源码,甚至是直接进行生产代码热修复,实现在一个工具内快速定位和修复问题的一站式服务。今天,我就带你使用Arthas定位一个CPU使用高的问题,系统学习下这个工具的使用。
首先,下载并启动Arthas:
curl -O https://alibaba.github.io/arthas/arthas-boot.jar
java -jar arthas-boot.jar
dashboard命令用于整体展示进程所有线程、内存、GC等情况,其输出如下:
可以看到,CPU高并不是GC引起的,占用CPU较多的线程有8个,其中7个是ForkJoinPool.commonPool。ForkJoinPool.commonPool是并行流默认使用的线程池。所以,此次CPU高的问题,应该出现在某段并行流的代码上。
接下来,要查看最繁忙的线程在执行的线程栈,可以使用thread�-n命令。这里,我们查看下最忙的8个线程:
可以看到,由于这些线程都在处理MD5的操作,所以占用了大量CPU资源。我们希望分析出代码中哪些逻辑可能会执行这个操作,所以需要从方法栈上找出我们自己写的类,并重点关注。由于主线程也参与了ForkJoinPool的任务处理,因此我们可以通过主线程的栈看到需要重点关注
org.geekbang.time.commonmistakes.troubleshootingtools.highcpu.HighCPUApplication类的doTask方法。接下来,使用jad命令直接对HighCPUApplication类反编译:
jad org.geekbang.time.commonmistakes.troubleshootingtools.highcpu.HighCPUApplication
可以看到,调用路径是main->task()->doTask(),当doTask方法接收到的int参数等于某个常量的时候,会进行1万次的MD5操作,这就是耗费CPU的来源。那么,这个魔法值到底是多少呢?
你可能想到了,通过jad命令继续查看User类即可。这里因为是Demo,所以我没有给出很复杂的逻辑。在业务逻辑很复杂的代码中,判断逻辑不可能这么直白,我们可能还需要分析出doTask的“慢”会慢在什么入参上。
这时,我们可以使用watch命令来观察方法入参。如下命令,表示需要监控耗时超过100毫秒的doTask方法的入参,并且输出入参,展开2层入参参数:
最后,我们使用ognl命令来运行一个表达式,直接查询User类的ADMIN_ID静态字段来验证是不是这样,得到的结果果然是0:
需要额外说明的是,由于monitor、trace、watch等命令是通过字节码增强技术来实现的,会在指定类的方法中插入一些切面来实现数据统计和观测,因此诊断结束要执行shutdown来还原类或方法字节码,然后退出Arthas。
在这个案例中,我们通过Arthas工具排查了高CPU的问题:
- 首先,通过dashboard�+�thread命令,基本可以在几秒钟内一键定位问题,找出消耗CPU最多的线程和方法栈;
- 然后,直接jad反编译相关代码,来确认根因;
- 此外,如果调用入参不明确的话,可以使用watch观察方法入参,并根据方法执行时间来过滤慢请求的入参。
可⻅,使用Arthas来定位生产问题根本用不着原始代码,也用不着通过增加日志来帮助我们分析入参,一个工具即可完成定位问题、分析问题的全套流程。