单元测试CPU100%问题排查

我们代码从dev合到release的时候,会跑单元测试,检查单元测试覆盖率达到了50%才能合到release发布到uat环境
但是最近几个月,单元测试一直需要跑30-50分钟,才能跑完。
之前也有一次单元测试跑的时间过长,然后我删删改改从30分钟到了10分钟;
但是这次我们又有这样的问题了,很浪费时间,很影响工作效率。

我本地跑了一下单元测试,有了一个大发现。
我本地是windows,CPU会飙到100%,电脑也差不多卡死了。


image.png

前几天我就发现了这个现象了,也打算找找CPU100%的原因,因为我们单元测试已经写得蛮标准规范的了,把该mock的地方都mock掉了,里面没有啥特殊的代码的,而且跑单元测试的时候,应该是一个单元测试一个单元测试的跑的,根本不会这么消耗CPU。

直接从任务管理器中拿到PID,然后jstack到txt中


image.png
2021-05-07 20:40:21
Full thread dump OpenJDK 64-Bit Server VM (25.202-b08 mixed mode):

"qconfig-logger" #278 daemon prio=5 os_prio=0 tid=0x0000000028fc5000 nid=0x574 waiting on condition [0x000000004ec4e000]
   java.lang.Thread.State: WAITING (parking)
    at sun.misc.Unsafe.park(Native Method)
    - parking to wait for  <0x000000073c5bd2f0> (a java.util.concurrent.locks.AbstractQueuedSynchronizer$ConditionObject)
    at java.util.concurrent.locks.LockSupport.park(LockSupport.java:175)
    at java.util.concurrent.locks.AbstractQueuedSynchronizer$ConditionObject.await(AbstractQueuedSynchronizer.java:2039)
    at java.util.concurrent.LinkedBlockingDeque.takeFirst(LinkedBlockingDeque.java:492)
    at java.util.concurrent.LinkedBlockingDeque.take(LinkedBlockingDeque.java:680)
    at java.util.concurrent.ThreadPoolExecutor.getTask(ThreadPoolExecutor.java:1074)
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1134)
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
    at java.lang.Thread.run(Thread.java:748)

"FileWatcher-Thread" #277 daemon prio=5 os_prio=0 tid=0x0000000028fc6800 nid=0x65e4 waiting on condition [0x000000004e94e000]
   java.lang.Thread.State: WAITING (parking)
    at sun.misc.Unsafe.park(Native Method)
    - parking to wait for  <0x0000000740a8e430> (a java.util.concurrent.locks.AbstractQueuedSynchronizer$ConditionObject)
    at java.util.concurrent.locks.LockSupport.park(LockSupport.java:175)
    at java.util.concurrent.locks.AbstractQueuedSynchronizer$ConditionObject.await(AbstractQueuedSynchronizer.java:2039)
    at java.util.concurrent.LinkedBlockingDeque.takeFirst(LinkedBlockingDeque.java:492)
    at java.util.concurrent.LinkedBlockingDeque.take(LinkedBlockingDeque.java:680)
    at com.ctrip.framework.foundation.config.local.watchservice.AbstractWatchService.take(AbstractWatchService.java:114)
    at com.ctrip.framework.foundation.config.local.file.RecursiveWatcher.take(RecursiveWatcher.java:54)
    at com.ctrip.framework.foundation.config.local.file.FileEventDispatcher.run(FileEventDispatcher.java:32)
    at java.lang.Thread.run(Thread.java:748)

"pool-101-thread-1" #276 prio=5 os_prio=0 tid=0x0000000028fc4800 nid=0x320 runnable [0x000000004e84e000]
   java.lang.Thread.State: RUNNABLE
    at java.io.WinNTFileSystem.getBooleanAttributes(Native Method)
    at java.io.File.exists(File.java:819)
    at com.ctrip.framework.foundation.config.local.watchservice.PollingWatchService$PollingWatchKey.poll(PollingWatchService.java:366)
    - locked <0x0000000740f22998> (a com.ctrip.framework.foundation.config.local.watchservice.PollingWatchService$PollingWatchKey)
    at com.ctrip.framework.foundation.config.local.watchservice.PollingWatchService$PollingWatchKey$1.run(PollingWatchService.java:264)
    at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:511)
    at java.util.concurrent.FutureTask.runAndReset(FutureTask.java:308)
    at java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask.access$301(ScheduledThreadPoolExecutor.java:180)
    at java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask.run(ScheduledThreadPoolExecutor.java:294)
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
    at java.lang.Thread.run(Thread.java:748)

"FileWatcher-Thread" #275 daemon prio=5 os_prio=0 tid=0x0000000028fc6000 nid=0x5f20 waiting on condition [0x000000004e74e000]
   java.lang.Thread.State: WAITING (parking)
    at sun.misc.Unsafe.park(Native Method)
    - parking to wait for  <0x0000000740a8e430> (a java.util.concurrent.locks.AbstractQueuedSynchronizer$ConditionObject)
    at java.util.concurrent.locks.LockSupport.park(LockSupport.java:175)
    at java.util.concurrent.locks.AbstractQueuedSynchronizer$ConditionObject.await(AbstractQueuedSynchronizer.java:2039)
    at java.util.concurrent.LinkedBlockingDeque.takeFirst(LinkedBlockingDeque.java:492)
    at java.util.concurrent.LinkedBlockingDeque.take(LinkedBlockingDeque.java:680)
    at com.ctrip.framework.foundation.config.local.watchservice.AbstractWatchService.take(AbstractWatchService.java:114)
    at com.ctrip.framework.foundation.config.local.file.RecursiveWatcher.take(RecursiveWatcher.java:54)
    at com.ctrip.framework.foundation.config.local.file.FileEventDispatcher.run(FileEventDispatcher.java:32)
    at java.lang.Thread.run(Thread.java:748)

"pool-100-thread-1" #274 prio=5 os_prio=0 tid=0x0000000028fc7800 nid=0x5d6c runnable [0x000000004e64e000]
   java.lang.Thread.State: RUNNABLE
    at sun.nio.fs.WindowsNativeDispatcher.FindFirstFile0(Native Method)
    at sun.nio.fs.WindowsNativeDispatcher.FindFirstFile(WindowsNativeDispatcher.java:185)
    at sun.nio.fs.WindowsDirectoryStream.<init>(WindowsDirectoryStream.java:78)
    at sun.nio.fs.WindowsFileSystemProvider.newDirectoryStream(WindowsFileSystemProvider.java:518)
    at java.nio.file.Files.newDirectoryStream(Files.java:457)
    at com.ctrip.framework.foundation.config.local.watchservice.PollingWatchService$PollingWatchKey.poll(PollingWatchService.java:303)
    - locked <0x0000000740bbb530> (a com.ctrip.framework.foundation.config.local.watchservice.PollingWatchService$PollingWatchKey)
    at com.ctrip.framework.foundation.config.local.watchservice.PollingWatchService$PollingWatchKey$1.run(PollingWatchService.java:264)
    at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:511)
    at java.util.concurrent.FutureTask.runAndReset(FutureTask.java:308)
    at java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask.access$301(ScheduledThreadPoolExecutor.java:180)
    at java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask.run(ScheduledThreadPoolExecutor.java:294)
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
    at java.lang.Thread.run(Thread.java:748)

"qconfig-worker-local-callback#-thread-1" #273 daemon prio=5 os_prio=0 tid=0x000000002adf5000 nid=0x2314 waiting on condition [0x000000004e54e000]
   java.lang.Thread.State: WAITING (parking)
    at sun.misc.Unsafe.park(Native Method)
    - parking to wait for  <0x000000073e76e578> (a java.util.concurrent.locks.AbstractQueuedSynchronizer$ConditionObject)
    at java.util.concurrent.locks.LockSupport.park(LockSupport.java:175)
    at java.util.concurrent.locks.AbstractQueuedSynchronizer$ConditionObject.await(AbstractQueuedSynchronizer.java:2039)
    at java.util.concurrent.LinkedBlockingQueue.take(LinkedBlockingQueue.java:442)
    at java.util.concurrent.ThreadPoolExecutor.getTask(ThreadPoolExecutor.java:1074)
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1134)
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
    at java.lang.Thread.run(Thread.java:748)

发现很多线程一直在跑,都在等锁啥的。

我又拿process explorer看了一下,N多的线程。


image.png

我就拿着jstack出来的内容找了框架组的同事,果然有问题。
跟框架同事研究了一下,他们说是他们有一个线程,会查看qconfig的文件变更,200微秒就会跑一次这个监听,而且这个逻辑只有在跑单元测试的这个环境会有:(。这个逻辑其实也没什么问题,后来发现了问题根本所在:
就是一个单元测试跑完后,这个监听的线程并没有结束掉,还会继续存在,继续查看文件变更。
这就导致了线程越跑越多,把cpu都卡死了。
用框架同事的话说,就是起了很多个在跑死循环的线程。电脑不卡才怪,单元测试不慢才怪呢。

找到问题了,就等框架同事把这个bug修复掉。

框架同事先把200微秒改成了1个小时,打了个包给我,我再跑了一次,直接起飞,我电脑上只用了4分钟不到,就把单元测试跑完了。
主要问题还是线程没有跟着单元测试结束掉导致的,这个他们还在排查,等下个版本修复了给到正式的包我们。

今天这个感觉很有成就感,我以前都没有真正的用到jstack解决过问题,今天这个jstack+process explorer,真是实战了一把,帮我们发现了一个大bug。虽然还没有用到jstack的高深用法,但是也发现了问题。

不过本来前几天就能发现这个的,当时不知道怎么就没有继续排查下去,做事情要专心,不能被打断。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,588评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,456评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,146评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,387评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,481评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,510评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,522评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,296评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,745评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,039评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,202评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,901评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,538评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,165评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,415评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,081评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,085评论 2 352

推荐阅读更多精彩内容