情景
在一次压力测试过程中,需要启动多个施压程序,于是将施压程序的目录复制多份(比如复制10份),按序号命名,形如:
ls -1 | grep output_login_bak
output_login_bak1
output_login_bak10
output_login_bak2
output_login_bak3
output_login_bak4
output_login_bak5
output_login_bak6
output_login_bak7
output_login_bak8
output_login_bak9
每个目录下有若干文件和目录:
ls -l output_login_bak5
总用量 12548
drwxrwxr-x 8 guhaihao guhaihao 4096 3月 29 17:10 conf
-rwxrwxr-x 1 guhaihao guhaihao 55 3月 21 11:50 getmsginfo.sh
drwxr-xr-x 2 root root 4096 3月 30 11:14 log
-rwxr-xr-x 1 guhaihao guhaihao 8892848 3月 8 19:13 main_login
-rw-rw-r-- 1 guhaihao guhaihao 8181 2月 14 19:23 README4QA.md
-rwxrwxr-x 1 guhaihao guhaihao 47 3月 29 15:51 result.sh
-rwxrwxr-x 1 guhaihao guhaihao 48 3月 21 11:12 saveresult.sh
-rwxrwxr-x 1 guhaihao guhaihao 3922200 3月 8 19:13 statistic
其中可执行文件为main_login
,依次进入output_login_bak1--output_login_bak10目录中执行可执行文件./main_login &
,执行后查看进程:
ps aux | grep main_login | grep -v grep
root 5880 0.2 0.0 1299384 14792 ? Sl Mar29 2:01 ./main_login
root 5970 0.3 0.0 1284820 15336 ? Sl Mar29 2:41 ./main_login
root 6073 0.2 0.0 1206088 14868 ? Sl Mar29 2:19 ./main_login
root 6166 0.3 0.0 1081356 14984 ? Sl Mar29 2:43 ./main_login
root 6267 0.2 0.0 1209004 15044 ? Sl Mar29 2:18 ./main_login
root 6344 0.2 0.0 1156148 15040 ? Sl Mar29 2:22 ./main_login
root 6509 0.0 0.0 1139236 13820 ? Sl Mar29 0:34 ./main_login
root 6581 0.2 0.0 1220880 15032 ? Sl Mar29 2:40 ./main_login
root 6662 0.3 0.0 1333964 15068 ? Sl Mar29 3:26 ./main_login
root 6736 0.2 0.0 1344012 14900 ? Sl Mar29 1:57 ./main_login
上述启动施压程序的操作用脚本执行,每个程序都后台运行。
问题
时而会出现这样的情况:某个施压程序可能会在施压过程中崩溃退出,发生这种情况时,只需将对应的日志清空,再将该进程重运行一下即可。但,从上面的进程名称上完全看不出来哪个进程退出了。
基于以上场景,可以有如下解决方法:
- 可以通过每个进程产生的施压日志来查看,没有按预期输出日志的肯定存在问题;
- 将施压程序全部结束进程,清空产生的日志,再重新启动;
- 将每个施压程序的可执行文件改名,与之目录的序号对应,这样便可以通过进程的名字知道启动情况了。
但是,方法1需要进入每个目录查看和比对日志,耗时费力;方法2和3都需要将现有程序先关闭,处理日志或改名后再重启。那么有没有不动声色就能解决这个问题的方法么(能问出这样的问题,说明有着技术极客的精神)?
当然!
这也告诉我们,如果够“勤快”,可能早就上述“勤快”的方法1、2、3执行了。但只要深入思考一下,就会有新的收获。
方案
从这个情景中我们知道,只要能区分出每个进程所在的目录,问题便迎刃而解了,以下给出几个方法:
知识点1
在linux系统中,/proc/[pid]/exe
为实际运行程序的符号链接。以上述的进程id5880为例:
ls -l /proc/5880/exe
lrwxrwxrwx 1 root root 0 3月 29 22:45 /proc/5880/exe -> /tmp/for_ljq/login_bakup/output_login_bak1/main_login
或
readlink -f /proc/5880/exe
/tmp/for_ljq/login_bakup/output_login_bak1/main_login
结合其他命令获取多个进程的信息:
ps aux | grep "main_login" | grep -v "grep" | awk '{print $2}' | xargs -n 1 -I {} ls -l /proc/{}/exe
lrwxrwxrwx 1 root root 0 3月 29 22:45 /proc/5880/exe -> /tmp/for_ljq/login_bakup/output_login_bak1/main_login
lrwxrwxrwx 1 root root 0 3月 29 22:45 /proc/5970/exe -> /tmp/for_ljq/login_bakup/output_login_bak10/main_login
lrwxrwxrwx 1 root root 0 3月 29 22:45 /proc/6073/exe -> /tmp/for_ljq/login_bakup/output_login_bak2/main_login
lrwxrwxrwx 1 root root 0 3月 29 22:45 /proc/6166/exe -> /tmp/for_ljq/login_bakup/output_login_bak3/main_login
lrwxrwxrwx 1 root root 0 3月 29 22:45 /proc/6267/exe -> /tmp/for_ljq/login_bakup/output_login_bak4/main_login
lrwxrwxrwx 1 root root 0 3月 29 22:45 /proc/6344/exe -> /tmp/for_ljq/login_bakup/output_login_bak5/main_login
lrwxrwxrwx 1 root root 0 3月 29 22:45 /proc/6509/exe -> /tmp/for_ljq/login_bakup/output_login_bak6/main_login
lrwxrwxrwx 1 root root 0 3月 29 22:45 /proc/6581/exe -> /tmp/for_ljq/login_bakup/output_login_bak7/main_login
lrwxrwxrwx 1 root root 0 3月 29 22:45 /proc/6662/exe -> /tmp/for_ljq/login_bakup/output_login_bak8/main_login
lrwxrwxrwx 1 root root 0 3月 29 22:45 /proc/6736/exe -> /tmp/for_ljq/login_bakup/output_login_bak9/main_login
知识点2
pwdx命令的作用就是输出一个进程的工作目录,参数为进程id,支持接收多个进程id,用在这里恰到好处:
pwdx 5880
5880: /tmp/for_ljq/login_bakup/output_login_bak1
pwdx 5880 5970
5880: /tmp/for_ljq/login_bakup/output_login_bak1
5970: /tmp/for_ljq/login_bakup/output_login_bak10
结合其他命令获取多个进程的信息:
ps aux | grep "main_login" | grep -v "grep" | awk '{print $2}' | xargs pwdx
5880: /tmp/for_ljq/login_bakup/output_login_bak1
5970: /tmp/for_ljq/login_bakup/output_login_bak10
6073: /tmp/for_ljq/login_bakup/output_login_bak2
6166: /tmp/for_ljq/login_bakup/output_login_bak3
6267: /tmp/for_ljq/login_bakup/output_login_bak4
6344: /tmp/for_ljq/login_bakup/output_login_bak5
6509: /tmp/for_ljq/login_bakup/output_login_bak6
6581: /tmp/for_ljq/login_bakup/output_login_bak7
6662: /tmp/for_ljq/login_bakup/output_login_bak8
6736: /tmp/for_ljq/login_bakup/output_login_bak9
知识点3
lsof可以列出当前系统的打开文件等相关信息,也可以列出一个进程的打开文件等信息,通过过滤可以得到目录信息:
lsof -p 5880 | grep cwd
main_logi 5880 root cwd DIR 253,2 4096 1403 /tmp/for_ljq/login_bakup/output_login_bak1
结合其他命令获取多个进程的信息:
ps aux | grep "main_login" | grep -v "grep" | awk '{print $2}' | xargs -n 1 lsof -p | grep cwd
main_logi 5880 root cwd DIR 253,2 4096 1403 /tmp/for_ljq/login_bakup/output_login_bak1
main_logi 5970 root cwd DIR 253,2 4096 1782 /tmp/for_ljq/login_bakup/output_login_bak10
main_logi 6073 root cwd DIR 253,2 4096 1750 /tmp/for_ljq/login_bakup/output_login_bak2
main_logi 6166 root cwd DIR 253,2 4096 1977 /tmp/for_ljq/login_bakup/output_login_bak3
main_logi 6267 root cwd DIR 253,2 4096 1881 /tmp/for_ljq/login_bakup/output_login_bak4
main_logi 6344 root cwd DIR 253,2 4096 2009 /tmp/for_ljq/login_bakup/output_login_bak5
main_logi 6509 root cwd DIR 253,2 4096 1913 /tmp/for_ljq/login_bakup/output_login_bak6
main_logi 6581 root cwd DIR 253,2 4096 1945 /tmp/for_ljq/login_bakup/output_login_bak7
main_logi 6662 root cwd DIR 253,2 4096 1815 /tmp/for_ljq/login_bakup/output_login_bak8
main_logi 6736 root cwd DIR 253,2 4096 1848 /tmp/for_ljq/login_bakup/output_login_bak9
扩展知识
- /proc/[pid]/exe
- lsof
- xargs