最近在完成一个比较大的多线程C++离线服务程序后,发现经常会出现卡住的情况,表现为CPU利用率100%左右,一直没找到代码原因,就采用了一个笨到方法,每小时重启一次服务……
这样做仍然会有好多数据进不了库,不是治本的方法,前几天决定彻底解决这个问题,搜索发现了gdb的一个强大的功能,gdb attach(如何定位死循环或高CPU使用率(linux) - Sonic4x),记录一下。
找出线程
找出CPU利用率高的进程(例如http_xxx)的所有线程,进行排序
ps xH -e -o pid,tid,pcpu,cmd --sort=pcpu | grep 'http_xxx'
得到结果:
2233 2245 1.2 http_xxx
2233 2237 80.9 http_xxx
找到线程2237的CPU占用率高。
用gdb找出调用栈
gdb,attach pid,info threads显示所有线程
gdb>attach 2233
gdb>info threads
结果如下,可以发现2237的编号为4
4 Thread 0xac1fcb70 (LWP 2237) 0x004ef0d7 in mq_timedreceive () from /lib/tls/i686/cmov/librt.so.1
...
* 1 Thread 0xb78496d0 (LWP 2238 0x006e0422 in __kernel_vsyscall ()
使用thread切换线程,使用bt显示线程栈
gdb>thread 4
gdb>bt
可以定位到某个函数到某行代码了,就找到原因了。