概述
对于一个开发人员来说,设计和开发是必备技能,但同时基本的运维技能也是需要的。能够快速定位线上问题,并予以解决,才能保障系统的稳定性。下面分享一些实际场景遇到问题后,必备的运维技能(Java场景)。
Top命令
top命令应该是linux定位性能问题最常用的命令了。运行top命令后,系统会显示一个总览信息和详细信息。
- 总览信息包括:系统运行时间,系统最近1、5、15分钟的load,进程数,cpu使用率等等
-
详细信息包括:每个进程的pid,cpu使用率,内存使用率,进程命令名称,占用时间等等
关于top的使用,可以展开很多。这里分享几个实际中常用的技巧
- top -c 可以显示完整的命令名称
- top -p [pid] 显示指定进程相信信息
- top命令还有一些交互命令,即显示的时候可以根据命令调整显示结果,这里列举几个常用的
- P 表示按cpu的使用率从大到小排序
- M 表示按内存的使用率从大到小排序
- c 切换显示命令名称和完整命令行
- T 根据时间/累计时间进行排序
- W 将当前设置写入~/.toprc文件中。这是写top配置文件的推荐方法
- H 显示该进程的所有线程信息
另外,除了原生的top,还有更酷炫的htop,有兴趣也可以玩一下。htop链接,但是万变不离其宗,掌握核心内容是关键。
du命令
du命令是查看当前指定文件或目录(会递归显示子目录)占用磁盘空间大小。格式是
du [参数] [目录/文件]
常用的参数是
-s:只显示总和的大小
-h: 以人类可读方式显示
-a: 显示当前目录下所有文件的大小
--max-depth=1:输出当前目录下各个子目录所使用的空间
du -a {dir} | sort -rn :可以按照大小从大到小排序
grep命令
定位问题需要的就是查看日志,查日志用的最多的就是grep。查看某个日志文件的特定日志
less *.log | grep 'xxx'
常用的参数如下
-A {x} 返回当前行往后x行的日志
-B {x} 返回当前行往前x行的日志
-e {expression} 使用正则表达式查找
-c 统计匹配的行数
实际运用
需要说明一下,线上出现问题,第一要素是止血,而不是定位分析问题。第一选择基本都是重启机器或重启应用,如果要保留现场进行分析,可以先将机器下线,再好好分析原因。
系统load升高报警,怎么定位
- 先使用top命令定位cpu占用率较高的进程(正常情况下,应该是java虚拟机的进程,如果是其他异常进程,可以考虑kill掉)
- top -H -p [pid] 定位到cpu利用率高的线程
- 使用 printf "%x \n" [线程id] 打印出线程的十六进制
- 使用jstack [pid] 打印java虚拟机的线程详细信息
- 使用步骤3的十六进制线程id去定位jstack信息的详细线程
JVM报OOM错误,怎么定位
OOM全程Out Of Memory,指Java堆内存溢出。众所周知,JVM的内存也不是无底洞,是根据JVM的启动参数设置的。当JVM内需要的内存超出设置的值,那系统就会报OOM错误了。
一般而言,这种情况的产生原因有
- 加载了大量对象到堆内存,导致超负荷
- 内存泄漏导致内存溢出
那首先我们需要dump出JVM内存,并定位到底是什么对象把JVM的内存耗光。
- jmap -histo[:live] [pid] dump出堆栈信息,找到占用内存最大的对象
总结
可以用一张图来概括一下线上问题的处理方式