之前使用过zabbix监控服务器集群,对于基本的监控需求,zabbix显得庞大而又麻烦,现在直接用shell脚本,获取监控数据并入库,设置定时任务执行脚本即可。
1.开发思路
首先设计要监控哪些东西,然后找到获取这些信息的命令,把他们逐步写成脚本命令,进行入库。
刚开始也不知道要用哪些命令获取这些信息,找了很多博客进行参考,下面给出我一直在翻看的几个
https://www.jianshu.com/p/7aeb0b38f154
https://www.cnblogs.com/xubiao/p/6497533.html
https://www.cnblogs.com/shouke/p/10157834.html
https://blog.csdn.net/mofiu/article/details/80758358
https://www.jb51.net/article/112965.htm
数据库操作
https://www.cnblogs.com/xf-linux-arm-java-android/p/3651502.html
1.ip
ipaddr=$(ip addr | awk '/^[0-9]+: / {}; /inet.*global/ {print gensub(/(.*)\/(.*)/, "\\1", "g", $2)}')
2.hostname
hostname=$(hostname)
3.时间
定义的格式为字符串,例如20190218055636,含义为2019年2月18号5点56分36秒
time=$(date +%Y%m%d%H%M%S)
4.CPU
cpu核数、1分钟、5分钟和15分钟平均负载、cpu实时的使用率
[root@localhost ~]# grep "cpu cores" /proc/cpuinfo | uniq
[root@localhost ~]# uptime
[root@localhost ~]# top -b -n 1 | grep Cpu
用命令执行输出的是一个整体,脚本中要做的是截取其中某项的值进行变量赋值,如1分钟负载
cpuAverage1=$(uptime | awk '{print $(NF-2)}' | sed 's/,//g')
5.内存
总量、使用量、使用率
[root@localhost ~]# top -b -n 1 | grep 'KiB Mem'
获取总量使用量后,使用率使用除法计算
memPused=`awk 'BEGIN{printf "%.2f\n",('$memUsed'/'$memTotal')}'`
6.网卡
网卡的监控包括网卡设备名称获取,网卡的发送接收速率
1.设备名称获取
netarray=(`ifconfig -a | grep UP | awk '{print $1}' | sed 's/://g'`)
我是将获取的设备名称写入txt文件,这样在后续设置定时任务时,设备获取脚本的执行间隔可以长一些,与IO数据获取的功能分开。
2.网卡的发送接收速率
读txt文件,获取设备名称,txt文件中用","分隔设备,此处进行解析
nets=$(cat /usr/local/shell/nets.txt)
OLD_IFS="$IFS"
IFS=","
netarr=($nets)
IFS="$OLD_IFS"
使用sar命令获取发送接收速率
[root@localhost ~]# sar -n DEV 1 1
Linux 3.10.0-327.el7.x86_64 (localhost.localdomain) 02/18/2019 _x86_64_ (1 CPU)
07:12:57 AM IFACE rxpck/s txpck/s rxkB/s txkB/s rxcmp/s txcmp/s rxmcst/s
07:12:58 AM eno16777736 1.01 1.01 0.06 0.20 0.00 0.00 0.00
07:12:58 AM lo 0.00 0.00 0.00 0.00 0.00 0.00 0.00
Average: IFACE rxpck/s txpck/s rxkB/s txkB/s rxcmp/s txcmp/s rxmcst/s
Average: eno16777736 1.01 1.01 0.06 0.20 0.00 0.00 0.00
Average: lo 0.00 0.00 0.00 0.00 0.00 0.00 0.00
每间隔1秒统计一次,总计统计1次,Average是平均值
#IFACE 本地网卡接口的名称
#rxpck/s 每秒钟接收的数据包
#txpck/s 每秒钟发送的数据库
#rxkB/s 每秒钟接收的数据包大小
#txkB/s 每秒钟发送的数据包大小
#rxcmp/s 每秒钟接收的压缩数据包
#txcmp/s 每秒钟发送的压缩包
#rxmcst/s 每秒钟接收的多播数据包
使用的是#rxkB/s和#txkB/s字段的值。
如果系统提示"command not found",需要先安装sysstat
yum -y install sysstat
7.磁盘
磁盘的监控包括磁盘设备名称获取,磁盘的读写速率
1.设备名称获取
diskarray=(`lsblk | grep -i disk | awk '{print $1}'`)
同样是写入txt文件。
2.磁盘的读写速率
使用iostat命令获取读写速率,sysstat安装完后便支持此命令
[root@localhost ~]# iostat -d
Linux 3.10.0-327.el7.x86_64 (localhost.localdomain) 02/18/2019 _x86_64_ (1 CPU)
Device: tps kB_read/s kB_wrtn/s kB_read kB_wrtn
sda 1.03 17.50 3.17 121256 21968
dm-0 0.94 16.53 2.87 114552 19919
dm-1 0.02 0.15 0.00 1068 0
dm-0、dm-1是分区
#tps:该设备每秒的传输次数
#kB_read/s:每秒从设备读取的数据量
#kB_wrtn/s:每秒向设备写入的数据量
#kB_read:读取的总数据量
#kB_wrtn:写入的总数量数据量
使用的是sda设备中#kB_read/s和#kB_wrtn/s字段的值。
8.文件系统空间使用情况
df -h命令可以获取文件系统的磁盘空间使用情况
[root@localhost ~]# df -h
Filesystem Size Used Avail Use% Mounted on
/dev/mapper/centos-root 18G 3.2G 15G 19% /
devtmpfs 479M 0 479M 0% /dev
tmpfs 489M 0 489M 0% /dev/shm
tmpfs 489M 6.8M 483M 2% /run
tmpfs 489M 0 489M 0% /sys/fs/cgroup
/dev/sda1 497M 125M 373M 25% /boot
tmpfs 98M 0 98M 0% /run/user/0
监控中可能只需要关注其中几个的使用情况,这部分我的处理方法为,先在txt文件中写入关注的分区列表,然后在脚本中读入并依次查询分区的空间使用情况。
9.告警
监控的目的除了获取信息,更重要的是对于某些临近性能限值的情况给出告警。
例如文件系统空间的使用情况,根据使用率可以设置不同的告警级别,类似超出85%、90%、95%的可以设置三个级别,进行告警入库操作。
10.监控历史定期清除
监控的内容非常多,监控的刷新间隔又比较短,时间长了以后,数据库数据量会非常大,写个数据库表数据清除脚本,根据实际使用情况设置定期执行。