之前使用过zabbix监控服务器集群，对于基本的监控需求，zabbix显得庞大而又麻烦，现在直接用shell脚本，获取监控数据并入库，设置定时任务执行脚本即可。

1.开发思路

首先设计要监控哪些东西，然后找到获取这些信息的命令，把他们逐步写成脚本命令，进行入库。
刚开始也不知道要用哪些命令获取这些信息，找了很多博客进行参考，下面给出我一直在翻看的几个
https://www.jianshu.com/p/7aeb0b38f154
https://www.cnblogs.com/xubiao/p/6497533.html
https://www.cnblogs.com/shouke/p/10157834.html
https://blog.csdn.net/mofiu/article/details/80758358
https://www.jb51.net/article/112965.htm
数据库操作
https://www.cnblogs.com/xf-linux-arm-java-android/p/3651502.html

1.ip

ipaddr=$(ip addr | awk '/^[0-9]+: / {}; /inet.*global/ {print gensub(/(.*)\/(.*)/, "\\1", "g", $2)}')

2.hostname

hostname=$(hostname)

3.时间

定义的格式为字符串，例如20190218055636，含义为2019年2月18号5点56分36秒

time=$(date +%Y%m%d%H%M%S)

4.CPU

cpu核数、1分钟、5分钟和15分钟平均负载、cpu实时的使用率

[root@localhost ~]# grep "cpu cores" /proc/cpuinfo | uniq
[root@localhost ~]# uptime
[root@localhost ~]# top -b -n 1 | grep Cpu

用命令执行输出的是一个整体，脚本中要做的是截取其中某项的值进行变量赋值，如1分钟负载

cpuAverage1=$(uptime | awk '{print $(NF-2)}' | sed 's/,//g')

5.内存

总量、使用量、使用率

[root@localhost ~]# top -b -n 1 | grep 'KiB Mem'

获取总量使用量后，使用率使用除法计算

memPused=`awk 'BEGIN{printf "%.2f\n",('$memUsed'/'$memTotal')}'`

6.网卡

网卡的监控包括网卡设备名称获取，网卡的发送接收速率

1.设备名称获取

netarray=(`ifconfig -a | grep UP | awk '{print $1}' | sed 's/://g'`)

我是将获取的设备名称写入txt文件，这样在后续设置定时任务时，设备获取脚本的执行间隔可以长一些，与IO数据获取的功能分开。

2.网卡的发送接收速率

读txt文件，获取设备名称，txt文件中用","分隔设备，此处进行解析

nets=$(cat /usr/local/shell/nets.txt)
OLD_IFS="$IFS"
IFS=","
netarr=($nets)
IFS="$OLD_IFS"

使用sar命令获取发送接收速率

[root@localhost ~]# sar -n DEV 1 1
Linux 3.10.0-327.el7.x86_64 (localhost.localdomain)     02/18/2019  _x86_64_    (1 CPU)

07:12:57 AM     IFACE   rxpck/s   txpck/s    rxkB/s    txkB/s   rxcmp/s   txcmp/s  rxmcst/s
07:12:58 AM eno16777736      1.01      1.01      0.06      0.20      0.00      0.00      0.00
07:12:58 AM        lo      0.00      0.00      0.00      0.00      0.00      0.00      0.00

Average:        IFACE   rxpck/s   txpck/s    rxkB/s    txkB/s   rxcmp/s   txcmp/s  rxmcst/s
Average:    eno16777736      1.01      1.01      0.06      0.20      0.00      0.00      0.00
Average:           lo      0.00      0.00      0.00      0.00      0.00      0.00      0.00

每间隔1秒统计一次，总计统计1次，Average是平均值

#IFACE 本地网卡接口的名称
#rxpck/s 每秒钟接收的数据包
#txpck/s 每秒钟发送的数据库
#rxkB/s 每秒钟接收的数据包大小
#txkB/s 每秒钟发送的数据包大小
#rxcmp/s 每秒钟接收的压缩数据包
#txcmp/s 每秒钟发送的压缩包
#rxmcst/s 每秒钟接收的多播数据包

使用的是#rxkB/s和#txkB/s字段的值。
如果系统提示"command not found"，需要先安装sysstat

yum -y install sysstat

7.磁盘

磁盘的监控包括磁盘设备名称获取，磁盘的读写速率

1.设备名称获取

diskarray=(`lsblk | grep -i disk | awk '{print $1}'`)

同样是写入txt文件。

2.磁盘的读写速率

使用iostat命令获取读写速率，sysstat安装完后便支持此命令

[root@localhost ~]# iostat -d
Linux 3.10.0-327.el7.x86_64 (localhost.localdomain)     02/18/2019  _x86_64_    (1 CPU)

Device:            tps    kB_read/s    kB_wrtn/s    kB_read    kB_wrtn
sda               1.03        17.50         3.17     121256      21968
dm-0              0.94        16.53         2.87     114552      19919
dm-1              0.02         0.15         0.00       1068          0

dm-0、dm-1是分区

#tps：该设备每秒的传输次数
#kB_read/s：每秒从设备读取的数据量
#kB_wrtn/s：每秒向设备写入的数据量
#kB_read：读取的总数据量
#kB_wrtn：写入的总数量数据量

使用的是sda设备中#kB_read/s和#kB_wrtn/s字段的值。

8.文件系统空间使用情况

df -h命令可以获取文件系统的磁盘空间使用情况

[root@localhost ~]# df -h
Filesystem               Size  Used Avail Use% Mounted on
/dev/mapper/centos-root   18G  3.2G   15G  19% /
devtmpfs                 479M     0  479M   0% /dev
tmpfs                    489M     0  489M   0% /dev/shm
tmpfs                    489M  6.8M  483M   2% /run
tmpfs                    489M     0  489M   0% /sys/fs/cgroup
/dev/sda1                497M  125M  373M  25% /boot
tmpfs                     98M     0   98M   0% /run/user/0

监控中可能只需要关注其中几个的使用情况，这部分我的处理方法为，先在txt文件中写入关注的分区列表，然后在脚本中读入并依次查询分区的空间使用情况。

9.告警

监控的目的除了获取信息，更重要的是对于某些临近性能限值的情况给出告警。
例如文件系统空间的使用情况，根据使用率可以设置不同的告警级别，类似超出85%、90%、95%的可以设置三个级别，进行告警入库操作。

10.监控历史定期清除

监控的内容非常多，监控的刷新间隔又比较短，时间长了以后，数据库数据量会非常大，写个数据库表数据清除脚本，根据实际使用情况设置定期执行。

shell脚本监控linux系统cpu、内存、磁盘、网卡信息

shell脚本监控linux系统cpu、内存、磁盘、网卡信息

1.开发思路

1.ip

2.hostname

3.时间

4.CPU

5.内存

6.网卡

1.设备名称获取

2.网卡的发送接收速率

7.磁盘

1.设备名称获取

2.磁盘的读写速率

8.文件系统空间使用情况

9.告警

10.监控历史定期清除