背景

线上的业务是一个后台管理系统，并发量和QPS都不高，今天线上遇到CPU突然飙到100%，查看Grafana发现QPS，堆内外内存，Pod内存均正常。由于是后台管理系统，跟运营同步之后，有问题的Pod先用于分析，后台功能先不使用。所以也没有把Pod拉出去，也没有执行回滚操作(前天有发布新版本)

实战

进入阿里云对应的Pod，终端执行命令，分析问题，有两种方式

问题定位之纯命令式

这边只是举个例子，用命令式排查cpu高的思路

top查看占用对应Pid，然后top -Hp查看pid下对应线程占用如下图

Pid下线程id.png
3860转16进制，结果是f14，然后jps看下java进程是2134， jsatck 2134 | grep f14看看结果， jps的时候记得要跟部署应用同一个账号，比如你是root部署应该，那也要root登录

命令形式排查.png
上图查看到是一个定时任务的线程占用高，具体问题到项目代码，发现sql返回的数据量太大，cpu占用比较大，这边优化sql解决
再举个例子，jstack pid |grep 3f,具体问题代码没截出来，但是能知道哪一行代码问题

正则

jstack 和 gc日志都可以用在线分析工具gc在线分析， jstack分析

问题定位之阿里的Arthas工具查询Cpu占用高

在终端执行下载

wget https://alibaba.github.io/arthas/arthas-boot.jar

运行

java -jar arthas-boot.jar

Arthas.png

查看运行情况, 红框部分就是罪魁祸首

dashboard

Arthas_1.png

查看占用最高cpu线程详情信息, 堆栈信息没截全，最后会输出具体哪行代码

thread pid(51)

Arthas_2.png

问题处理

由Arthas定位到问题代码是, 正则匹配引起的，产品功能是配置链接，后端这边简单校验链接，有问题代码是这个, 触发的原因是产品在配置链接时类似给了https://www.baidu.com/6sfs3sfsa-ggsfdsf-4wrwrwr-geerw-9d094636cab9?#, 地址结构是这样的，真实地址隐藏了

Pattern pattern = Pattern.compile("^([hH][tT]{2}[pP]://|[hH][tT]{2}[pP][sS]://)(([A-Za-z0-9-~]+).)+([A-Za-z0-9-~\\\\/])+$")
if (!pattern.matcher(sr.getLink()).matches()) {
 ...
}

与产品沟通链接可简单校验，后来改成, 重新发布，问题解决，产品之前那个有问题的链接能够正常配置

Pattern pattern = Pattern.compile("^(|http|https):[^ \"]+$")
if (!pattern.matcher(sr.getLink()).matches()) {
 ...
}

问题原因分析

Java 正则表达式使用的引擎实现是 NFA 自动机，这种正则表达式引擎在进行字符匹配时会发生回溯。而一旦发生回溯，那其消耗的时间就会变得很长，有可能是几分钟，也有可能是几个小时，时间长短取决于回溯的次数和复杂度
NFA自动机匹配原则, 如下例子正则匹配是拿regex的d跟text文本一个个匹配，d先个T匹配不匹配，d再跟o匹配不匹配，d跟d匹配则匹配，再拿regex的a跟text中d后面的a匹配能匹配，y跟y匹配能匹配，当然实际匹配比这个复杂很多

text = Today is a nice day
regex = day

NFA自动回溯，例子是regex以a开头，以c结尾，中间有1-3个b字符的字符串。NFA解析: 读取正则表达式第一个匹配符a和字符串第一个字符 a 比较，匹配了。于是读取正则表达式第二个字符。读取正则表达式第二个匹配符 b{1,3} 和字符串的第二个字符 b 比较，匹配了。但因为 b{1,3} 表示 1-3 个 b 字符串，以及 NFA 自动机的贪婪特性(也就是说要尽可能多地匹配)，所以此时并不会再去读取下一个正则表达式的匹配符，而是依旧使用 b{1,3} 和字符串的第三个字符 b 比较，发现还是匹配。于是继续使用 b{1,3} 和字符串的第四个字符 c 比较，发现不匹配了。此时就会发生回溯。发生回溯是怎么操作呢？发生回溯后，我们已经读取的字符串第四个字符 c 将被吐出去，指针回到第三个字符串的位置。之后，程序读取正则表达式的下一个操作符 c，读取当前指针的下一个字符 c 进行对比，发现匹配则结束

text = abbc
regex = ab{1,3}c

我们有问题的正则

^([hH][tT]{2}[pP]://|[hH][tT]{2}[pP][sS]://)(([A-Za-z0-9-~]+).)+([A-Za-z0-9-~\\\\/])+$

第二部分, 匹配到com/6sfs3sfsa-ggsfdsf-4wrwrwr-geerw-9d094636cab9?#, 你因为贪婪匹配的原因，所以程序会一直读后面的字符串进行匹配，最后发现没有点号，于是就一个个字符回溯回去了，这是第一个问题

(([A-Za-z0-9-~]+).)+

第三部分, 需要匹配的链接是有特殊符号?#的，但是对应第三部分的正则表达式里面却没有。这样就会导致前面匹配了一长串的字符之后，发现不匹配，最后回溯回去，时间就比较长了

([A-Za-z0-9-~\\/])+$

CPU过高问题排查

CPU过高问题排查

目录

背景

实战

问题定位之纯命令式

问题定位之阿里的Arthas工具查询Cpu占用高

问题处理

问题原因分析

参考文章

相关阅读更多精彩内容

友情链接更多精彩内容