近期项目中使用到了spring-kafka-1.1.7.RELEASE, 上线后发现程序在没有请求时,进程的CPU占用率依然保持在20%以上,于是开始查找原因。
首先通过ps -mp
命令查看到低是哪个线程长时间占用CPU:
ps -mp 进程PID -o THREAD,tid,time
输出如下:
其中第二列就是命令执行时此线程的CPU占用率,可见图中用红框标记的部分明显偏高。我们记下右侧的线程id, 比如24452。
然后通过jstack
将JVM进程线程dump出来:
jstack 进程PID > thread.txt
我们把24452转换成16进制得到5f84,再从此文件中搜索0x5f84
即可找到线程:
可以看出,CPU占用高的这些线程全部都是spring-kafka模块生成的Consumer线程(和部分C1, C2编译线程),这些线程的数量是由spring boot配置文件中spring.kafka.listener.concurrency
参数决定的,如果设为10,则每个topic都会生成10个Consumer线程,每个Listener生成10个Listener线程。在此应用中监听了2个topic, 创建了2个listener, concurrency值为10,因而为此创建的线程总数高达40个。 官方的github上也有人问过consumer线程CPU占用过高的问题,不过最后也是不了了之。尝试过增大pollTimeout
参数,无效。
解决方案,将spring.kafka.listener.concurrency
改为2, 然后在定义的Listener中不进行消息处理,而是直接将消息封装成Task扔到线程池中,这样就不会堵塞Listener线程。改完后再次测试,CPU占用恢复正常水平。
或者,将spring-kafka版本替换成1.1.1.RELEASE, 问题也能解决,说明是代码实现上的bug。