第一章 监控知识基本概述
1.为什么要使用监控
1.对系统不间断实时监控
2.实时反馈系统当前状态
3.保证服务可靠性安全性
4.保证业务持续稳定运行
2.如何进行监控,比如我们需要监控磁盘的使用率
1.如何查看磁盘使用率 df -h
2.监控磁盘的那些指标 block、 inode
3.如何获取具体的信息 df -h|awk '//[图片上传失败...(image-413477-1565250899144)]
(NF-1)}'
4.获取的数值到达多少报警 80%
3.流行的监控工具
1.Zabbix
2.Lepus(天兔)数据库监控系统
3.Open-Falcon 小米
4.Prometheus(普罗米修斯, Docker、 K8s)
4.如果去到一家新公司,如何入手监控
1.硬件监控 路由器、交换机、防火墙
2.系统监控 CPU、内存、磁盘、网络、进程、 TCP
3.服务监控 nginx、 php、 tomcat、 redis、 memcache、 mysql
4.WEB 监控 请求时间、响应时间、加载时间、
5.日志监控 ELk(收集、存储、分析、展示) 日志易
6.安全监控 Firewalld、 WAF(Nginx+lua)、安全宝、牛盾云、安全狗
7.网络监控 smokeping 多机房
8.业务监控 活动引入多少流量、产生多少注册量、带来多大价值
第二章 单机时代如何监控
CPU 监控命令: w、 top、 htop、 glances
%Cpu(s): 0.3 us, 0.3 sy, 0.0 ni, 99.3 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
us 用户态: 跟用户的操作有关 35%
sy 系统态: 跟内核的处理有关 60%
id CPU 空闲:
内存监控命令: free
[root@m01 ~]# free -h
total used free shared buff/cache available
Mem: 977M 105M 724M 6.6M 148M 729M
Swap: 1.0G 0B 1.0G
磁盘监控命令: df、 iotop
Device: tps kB_read/s kB_wrtn/s kB_read kB_wrtn
sda 0.80 25.32 33.36 221034 291193
设备名 每秒传输次数 每秒读大小 每秒写大小 读的总大小 写的总大小
网络监控命令: ifconfig、 route、 glances、 iftop、 nethogs、 netstat
单位换算
Mbps 100Mbps/8
MB 12MB
iftop 中间的<= =>这两个左右箭头,表示的是流量的方向。
TX:发送流量、 RX:接收流量、 TOTAL:总流量
#查看 TCP11 中状态
netstat -an|grep ESTABLISHED
netstat -rn # 查看路由信息
netstat -lntup
2.随着时间的推移,用户不断的增多,服务随时可能扛不住会被 oom(out of memory),当系统内存不足的时候,会
触发 oom
1.当系统内存不足的时候就会大量使用 swap
2.当系统大量使用 swap 的时候,系统会特别卡
注意: 有时可能内存还有剩余 300Mb-500Mb,但会发现 swap 依然被使用
[root@ZabbixServer ~]# dd if=/dev/zero of=/dev/null bs=800M
[root@ZabbixServer ~]# tail -f /var/log/messages
Out of memory: Kill process 2227 (dd) score 778 or sacrifice child
Killed process 2227 (dd) total-vm:906724kB, anon-rss:798820kB, file-rss:0kB
3.那单机时代,如何使用 shell 脚本来实现服务器的监控
需求: 每隔 1 分钟监控一次内存,当你的可用内存低于 100m,发邮件报警,要求显示剩余内存
1.怎么获取内存可用的值 free -m|awk '/^Mem/{print $NF}'
2.获取到内存可用的值如何和设定的阈值进行比较
3.比较如果大于 100m 则不处理,如果小于 100 则报警
4.如何每隔 1 分钟执行一次
[root@ZabbixServer ~]# cat free.sh
#!/usr/bin/bash
HostName=$(hostname)_$(hostname -i)
Date=$(date +%F)
while true;do
Free=$(free -m|awk '/^Mem/{print $NF}')
if [ $Free -le 100 ];then
echo "$Date: $HostName Mem Is < ${Free}MB"
fi
sleep 5
done
第三章 zabbix 监控快速安装
1.配置zabbix仓库
[root@m01 ~]# rpm -ivh https://mirrors.tuna.tsinghua.edu.cn/zabbix/zabbix/4.0/rhel/7/x86_64/zabbix-release-4.0-1.el7.noarch.rpm
2.安装 Zabbix 程序包,以及 MySQL、 Zabbix-agent
在这里==============
zabbix-agent(数据采集)
zabbix-server-mysql(分析,报警)
mariadb-server(存储数据)
zabbix-web-mysql(展示数据给用户)
===================
[root@m01 ~]# yum install -y zabbix-server-mysql zabbix-web-mysql zabbix-agent mariadb-server
[root@m01 ~]# systemctl start mariadb.service && systemctl enable mariadb.service
3.创建 Zabbix 数据库以及用户
[root@m01 ~]# mysqladmin password 123456
[root@m01 ~]# mysql -uroot -p123456
MariaDB [(none)]> create database zabbix character set utf8 collate utf8_bin;
MariaDB [(none)]> grant all privileges on zabbix.* to zabbix@localhost identified by 'zabbix';
MariaDB [(none)]> flush privileges;
4.导入 Zabbix 数据至数据库中
[root@m01 ~]# zcat /usr/share/doc/zabbix-server-mysql-4.2.8/create.sql.gz | mysql -uzabbix -pzabbix zabbix
注意: zabbix-server-mysql-4.2.8 的版本号会变哦*** 用find / -name create.sql.gz
5.编辑/etc/zabbix/zabbix_server.conf 文件,修改数据库配置
[root@m01 ~]# vim进去,修改DB相关的: grep "^DB" /etc/zabbix/zabbix_server.conf
...............
DBHost=localhost
DBName=zabbix
DBUser=zabbix
DBPassword=zabbix
...............
6.启动 Zabbix 服务进程,并加入开机自启
[root@m01 ~]# systemctl start zabbix-server.service
[root@m01 ~]# systemctl enable zabbix-server.service
7.配置 Apache 的配置文件/etc/httpd/conf.d/zabbix.conf,修改时区
[root@m01 ~]# grep "Shanghai" /etc/httpd/conf.d/zabbix.conf
php_value date.timezone Asia/Shanghai
8.重启 Apache Web 服务器
[root@m01 ~]# systemctl start httpd
第四章 WEB安装步骤
1.浏览器打开地址:http://10.0.1.61/zabbix/setup.php
2.检查依赖项是否存在异常
3.配置zabbix连接数据库
4.配置 ZabbixServer 服务器的信息
如果连不上, 把“host”的值由“localhost”改成“127.0.0.1”. (方2:尝试做个软连接,chown -h改属组)
5.最终确认检查
6.安装成功
提示已成功地安装了 Zabbix 前端。配置文件/etc/zabbix/web/zabbix.conf.php 被创建。
7.登陆zabbix
默认登陆 ZabbixWeb 的用户名 Admin,密码 zabbix
8.调整字符集为中文
8.1 主页的严重警告,是因为zabbix-agent没有启动,
张亚把systemctl status zabbix-agent然后看tail -F /var/log/zabbix/zabbix_agentd.log 和zabbix_server.log 的日志,发现日志显示zabbix-agent启动成功了。
=====这里说明张亚前辈很善于自己主动学习的思维,这说明我需要加强自己主动学习的思维。===
9.修复中文乱码
打开图形之后会发现语言为乱码,原因是缺少字体
监测-图形-随便打开一个图形-显示方框
解决方法:安装字体并替换现有字体
[root@m01 ~]# yum install wqy-microhei-fonts -y
[root@m01 ~]# cp /usr/share/fonts/wqy-microhei/wqy-microhei.ttc /usr/share/zabbix/assets/fonts/graphfont.ttf
再次刷新发现已经变成中文了
第五章 Zabbix 监控基础架构
zabbix-agent(数据采集)—>zabbix-server(数据分析|报警)—> 数据库(数据存储)<—zabbix web(数据展示)
第六章 zabbix 快速监控主机 (装在客户机上~~!)
1.安装zabbix-agent
[root@web01 ~]# rpm -ivh https://mirror.tuna.tsinghua.edu.cn/zabbix/zabbix/4.0/rhel/7/x86_64/zabbix-agent-4.0.11-1.el7.x86_64.rpm
2.配置zabbix-agent
[root@web01 ~]# grep "^[a-Z]" /etc/zabbix/zabbix_agentd.conf
PidFile=/var/run/zabbix/zabbix_agentd.pid
LogFile=/var/log/zabbix/zabbix_agentd.log
LogFileSize=0
Server=10.01.61 #允许谁来访问
ServerActive= 10.0.1.61 #向谁申请
Hostname=Zabbix server #本机的主机名
Include=/etc/zabbix/zabbix_agentd.d/*.conf
3.启动zabbix-agent并检查
[root@web01 ~]# systemctl start zabbix-agent.service
[root@web01 ~]# systemctl enable zabbix-agent.service
[root@web01 ~]# netstat -lntup|grep 10050
tcp 0 0 0.0.0.0:10050 0.0.0.0:* LISTEN 10351/zabbix_agentd
tcp6 0 0 :::10050 :::* LISTEN 10351/zabbix_agentd
4.zabbix-web界面,添加主机
第七章 自定义监控主机小试身手
1.监控需求
监控TCP11种状态集
2.命令行实现
[root@web01 ~]# netstat -ant|grep -c TIME_WAIT
55
[root@web01 ~]# netstat -ant|grep -c LISTEN
12
★ grep -c XXX 统计XXX关键词出现的次数.
3.编写zabbix监控文件(传参形式)
[root@web01 ~]# cat /etc/zabbix/zabbix_agentd.d/tcp_status.conf
UserParameter=tcp_state[*],netstat -ant|grep -c $1
root@web01 ~]# systemctl restart zabbix-agent.service
4.server端进行测试
[root@m01 ~]# rpm -ivh https://mirrors.tuna.tsinghua.edu.cn/zabbix/zabbix/4.0/rhel/7/x86_64/zabbix-release-4.0-1.el7.noarch.rpm
[root@m01 ~]# yum install zabbix-get.x86_64 -y
[root@m01 ~]# zabbix_get -s 10.0.0.7 -k TIME_WAIT
51
#张亚写的是zabbix_get -s 10.0.0.7 -k tcp_state[TIME_WAIT]
[root@m01 ~]# zabbix_get -s 10.0.0.7 -k TIME_WAIT
12
#zabbix_get -s 10.0.0.7 -k tcp_state[LISTEN]
5.web端添加
6.克隆监控项
由于TCP有多种状态,需要添加多个监控项,我们可以使用克隆快速达到创建的效果
其他的状态依次添加即可
7.创建图形
8.查看图形
9.设置触发器
第八章 邮件报警
1.定义发件人
2.定义收件人
定制报警内容:
https://www.zabbix.com/documentation/4.0/zh/manual/appendix/macros/supported_by_location
第九章 微信报警
1.查看配置文件里的脚本目录路径
[root@m01 ~]# grep "^AlertScriptsPath" /etc/zabbix/zabbix_server.conf
AlertScriptsPath=/usr/lib/zabbix/alertscripts
2.将weixin.py放在zabbix特定目录
[root@m01 /usr/lib/zabbix/alertscripts]# ll
总用量 4
-rwxr-xr-x 1 root root 1344 8月 7 21:58 weixin.py
3.配置发信人
4.配置收信人
5.登陆企业微信公众号添加账户
https://work.weixin.qq.com/wework_admin/loginpage_wx
1.登陆后在企业号上新建应用
2.上传logo,填写应用名称 ,应用介绍等
3.查看启动应用
同时会生成应用的AgentId以及Secret,这个在后面步骤会有用
4.接口调用测试
http://work.weixin.qq.com/api/devtools/devtool.php
这里的corpid为公司ID
网址这样找:企业微信--API文档--点一个接口文件--然后就进来了。
Corpsecret就是刚才创建应用生成的Secrt,确认没问题填写进去然后下一步
如果没问题会显示error-msg为OK。
6.添加成员
7.关注公众号
8.查看自己的账号
9.修改脚本里的信息
[root@m01 /usr/lib/zabbix/alertscripts]# cat weixin.py
..............
corpid='微信企业号corpid'
appsecret='应用的Secret'
agentid=应用的id
..............
10.发信测试
[root@m01 /usr/lib/zabbix/alertscripts]# python weixin.py 你的账号 '发信测试' ‘微信测试消息’
*Q: 模块缺失问题:
[root@m01 externalscripts]# ./weixin.py ZhangXiaoYu '发信测试' '微信测试消息'
Traceback (most recent call last):
File "./weixin.py", line 7, in <module>
import requests
ImportError: No module named requests
解释: python少request这个模块.
yum install -y python-pip (安装py的安装包pip)
然后
pip install request (安装这个缺少的模块)*
11.微信号上查看
第十章 自定义模版
(1)得在客户机的agent下面
(2)自定义模板的为位置得放在/etc/zabbix/zabbix_agentd.d/目录下面为 xxx.conf.
1.监控TCP11种状态
编写zabbix配置文件
[root@web01 /etc/zabbix/zabbix_agentd.d]# cat zbx_tcp.conf
UserParameter=ESTABLISHED,netstat -ant|grep -c 'ESTABLISHED'
UserParameter=SYN_SENT,netstat -ant|grep -c 'SYN_SENT'
UserParameter=SYN_RECV,netstat -ant|grep -c 'SYN_RECV'
UserParameter=FIN_WAIT1,netstat -ant|grep -c 'FIN_WAIT1'
UserParameter=FIN_WAIT2,netstat -ant|grep -c 'FIN_WAIT2'
UserParameter=TIME_WAIT,netstat -ant|grep -c 'TIME_WAIT'
UserParameter=CLOSE,netstat -ant|grep -c 'CLOSE'
UserParameter=CLOSE_WAIT,netstat -ant|grep -c 'CLOSE_WAIT'
UserParameter=LAST_ACK,netstat -ant|grep -c 'LAST_ACK'
UserParameter=LISTEN,netstat -ant|grep -c 'LISTEN'
UserParameter=CLOSING,netstat -ant|grep -c 'CLOSING'
2.重启zabbix-agent
[root@web01 ~]# systemctl restart zabbix-agent.service
3.测试监控项
使用zabbix-get命令测试
[root@m01 ~]# yum install zabbix-get.x86_64 -y
[root@m01 ~]# zabbix_get -s 10.0.0.7 -k ESTABLISHED
2
[root@m01 ~]# zabbix_get -s 10.0.0.7 -k LISTEN
12
3.导入模版文件
4.主机关联模版文件
5.查看最新数据
6.查看图形
第x章 故障记录
故障1
故障现象:
提示zabbix-server is not running
报错日志:
34983:20190807:202215.171 database is down: reconnecting in 10 seconds
34983:20190807:202225.172 [Z3001] connection to database 'zabbix' failed: [1045] Access denied for user 'zabbix'@'localhost' (using password: NO)
故障原因:
zabbix-server的配置文件里配有配置数据库密码
故障解决:
添加正确的数据库账号密码信息
[root@m01 ~]# grep "^DB" /etc/zabbix/zabbix_server.conf
DBHost=localhost
DBName=zabbix
DBUser=zabbix
DBPassword=zabbix
故障2
故障现象:微信报警失败
报错日志:
[root@m01 ~]# tail -f /var/log/zabbix/zabbix_server.log
Problem name: TIME_WAIT过多
Host: web01
Severity: Average
Original problem ID: 51
'": Traceback (most recent call last):
File "/usr/lib/zabbix/alertscripts/weixin.py", line 7, in <module>
import requests
ImportError: No module named requests
问题原因:
缺少模块 requests
问题解决:
安装缺失的依赖包
[root@m01 ~]# yum install python-pip
[root@m01 ~]# pip install --upgrade pip
[root@m01 ~]# pip install requests
故障3
故障现象:
在server端使用zabbix_get命令测试键值命令时提示警告
[root@m01 ~]# zabbix_get -s 10.0.0.7 -k ESTABLISHED
(Not all processes could be identified, non-owned process info
will not be shown, you would have to be root to see it all.)
2
问题原因:
zabbix_agent是以普通用户zabbix运行的,而普通用户执行netstat -antp时会有警告,网上查找发现只要不是用p参数就可以以普通用户运行
解决方案:
监控脚本里的命令修改为netstat -ant
作者:张亚_7868
链接:https://www.jianshu.com/p/c0baba52c442
来源:简书
简书著作权归作者所有,任何形式的转载都请联系作者获得授权并注明出处。
xiaoyu遇到的问题:
网页端挂了, 重启下zabbix-server就行,不行再重启下httpd? 我的恢复了。