Zabbix调优不完全指南

image.png

从学习搭建zabbix到完成各类监控、调优、二次开发已经过去了两年,期间通过QQ学习群、zabbix官方社区、各个技术博客整理学习了不少关于各种报错的处理方法,现在将常见的一些报错处理方法整理出来分享给大家。
在这先贴几个链接,给自己过去的简书增加些流量:
Centos7安装Zabbix server3.4
zabbix通过SNMP监控路由器,交换机
zabbix通过IPMI监控服务器硬件
zabbix agent部署及自定义SQL server监控模版
Zabbix+Raspberry pi监控机房温湿度
Zabbix监控服务器系统时间
zabbix监控Vmware运行
好了,广告打完,现在开始介绍常见报错处理方法:
问题一、Zabbix server内存溢出,无法启动
问题原因:
这是由于zabbix默认的缓存配置只有8M,当你zabbix正常运行一段时间后,大批量添加一些被监控设备就会出现这种情况。
解决方法:
打开zabbix_server.conf文件,将CacheSize改一个较大的值,我现在给自己配的是1024M。

vim /etc/zabbix/zabbix_server.conf
CacheSize=1024M  #第385行

问题二、Zabbix housekeeper processes more than 75% busy
问题原因:
由于zabbix每天都会产生大量数据(比如我现在监控项有20K+,每30s-5min每个监控项会产生一条数据,一天会产生非常多数据),为了防止数据库爆炸,zabbix会自动定期清理历史数据(这个历史数据保留时间值你可以在监控项中自己配置),但清理历史数据会影响mysql性能,就会出现上面的报错。
解决方法:
这里需要调整两个参数,一个是清理时间间隔、一个是清理的最大删除量。

vim /etc/zabbix/zabbix_server.conf
HousekeepingFrequency=12  #原值是每一小时清理一次,建议改为12或24小时清理一次。第363行
MaxHousekeeperDelete=100000  #原值为每次清理5000条,建议改为上限100000条。 第376行

问题三、Zabbix poller processes more than 75% busy
问题原因:
这里可能有如下两个原因:
1、通过Zabbix agent采集数据的设备死机或其他原因导致zabbix agent死掉server获取不到数据。
2、server向agent获取数据时时间过长,超过了server设置的timeout时间。
解决方法:
1、增加zabbix server启动时初始化的进程数量:

vim /etc/zabbix/zabbix_server.conf
StartPollers=12  #第165行,视自己服务器性能改,上限是1000,如果改完发现启不起来可以改小一点。

2、修改模板自动发现规则中的保留失去的资源期间为0。
问题四:Zabbix discoverer processes more than 75% busy
问题原因:
看问题报警字面意思是自动发现进程忙碌数超过75%,这是因为我们用的监控模版中带着大量自动发现项,每一个自动发现项都会产生一个进程,所以一般我们添加多台被监控设备时就会出现这样的报错。
解决办法:
修改自动发现进程数。

vim /etc/zabbix/zabbix_server.conf
StartDiscoverers=10  #第219行,取掉#号,默认为1,改为10,上限为250请视自己的需求和服务器配置而定

其次还可以通过执行定期重启server脚本来清理进程,释放内存。

[root@m01 ~]# grep 'StartDiscoverers' /etc/zabbix/zabbix_server.conf2 3 ### Option: StartDiscoverers4 5 StartDiscoverers=56 7 [root@m01 ~]# systemctl restart zabbix-server.service
[root@m01 ~]# crontab -e2 3 @daily service zabbix-server restart > /dev/null 2>&14 5

问题五:Zabbix alerter processes more than 75% busy
问题原因:
这个问题通常是因为邮件告警进程过于繁忙导致的,如果邮件动作间隔设置过短,在一些极端情况下(比如核心网络宕了)会发生大量邮件(比如上万条邮件)告警,则会导致邮件进程繁忙或者邮件进程直接挂了。
解决方法:
修改邮件脚本,将邮件的动作改为打印时间,等待邮件完全释放再改回来,如下:

[root@m01 ~]# cat /usr/lib/zabbix/alertscripts/sms 2 3 #!/bin/bash 4 5 echo `date` >>/tmp/sms.txt 

问题六:Zabbix poller processes more than 75% busy
问题原因:
1、zabbix消耗的内存过多。
2、某个进程卡住了。
3、僵尸进程太多、出错、导致慢了。
4、网络延时。
解决方案:
这里有两个解决方案,第一是修改zabbix_server.conf文件调优性能,第二是简单粗暴定期重启server释放进程。

vim /etc/zabbix/zabbix_server.conf
StartPollers=12 #第165行,我现在设置为12,如果你服务器性能够强可以继续增加,上限是1000

其次是简单粗暴定期重启

service zabbix-server restart
crontab -e 调出Cron编辑器中增加一个计划:
@daily service zabbix-server restart > /dev/null 2>&1

问题七:server端日志中出现大量first network error, wait for 15 seconds
问题原因:
产生这个问题的主要原因是你的监控项执行时间过长,超过了默认配置的timeout=15s时间,这里只要将你的server、proxy和agent的conf文件中的timeout时间改长一点即可,上限是30s,如果30s还不够那就要改系统源码来突破这个上限了。
解决方法:

vim /etc/zabbix/zabbix_server.conf #这里以修改server端conf文件为例,其他两个类似的就不列举了
Timeout=30  #第448行

问题八:More than 100 items having missing data for more than 10 minutes和Zabbix poller processes more than 75% busy
问题原因:
这两个问题的主要原因是你配置的缓存或者进程数太少,导致监控项很多时服务器来不及处理。
解决方法:
直接增加server端进程数和缓存即可。

vim /etc/zabbix/zabbix_server.conf
StartPollers=500
StartPollersUnreachable=50
StartTrappers=30
StartDiscoverers=6
CacheSize=1G
CacheUpdateFrequency=300
StartDBSyncers=20
HistoryCacheSize=512M
TrendCacheSize=256M
HistoryTextCacheSize=80M
ValueCacheSize=1G  #这里把关于该问题的可能性能项配置一起给到大家

问题九:connection to database 'zabbix' failed: [1040] Too many connections
问题原因:
从字面意思上可以看出数据库的连接数已经超出最大限制。
解决方法:
直接修改mysql的最大连接数即可。

vim /etc/my.cnf
max_connections=1000  #将最大链接数调整为1000
systemctl restart mariadb.service  #重启SQL

问题十:批量添加大量被监控设备后出现服务端直接宕机,报警提示Zabbix value cache working in low memory mode Less than 25% free in the configuration cache。
问题原因:
由于大量添加被监控设备,导致服务器内存溢出。
解决方案:

vim /etc/zabbix/zabbix_server.conf
CacheSize=1024M  #第385行

问题十一:Zabbix alerter processes more than 75% busy
问题原因:
从字面意思可以看出当你产生大量告警是即会出现这个报错,告警进程过多。
解决方案:
调整conf文件中的最大告警进程数即可。

vim /etc/zabbix/zabbix_server.conf
StartAlerters=3  #第254行,去掉#注释,修改为10,上限为100。

问题十二:zabbix unreachable poller processes more than 75 busy
问题原因:
产生这个问题的主要原因是zabbix server端轮询的不可达设备(被监控设备处于死机状态、agent与server数据传输超过timeout时间、mysql或zabbix server的io卡住了)过多导致。
解决方案:

vim /etc/zabbix/zabbix_server.conf
StartPingers=12  #第165行,修改为12,上限是1000

以上这些基本都是因为zabbix的zabbix_server.conf文件中的默认性能配置过低导致的错误,在日常使用中经常会遇到,只要进行简单配置后重新启动zabbix server即可解决。该贴会持续不定期更新我日常工作中遇到的各种问题。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,640评论 6 507
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,254评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 165,011评论 0 355
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,755评论 1 294
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,774评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,610评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,352评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,257评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,717评论 1 315
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,894评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,021评论 1 350
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,735评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,354评论 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,936评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,054评论 1 270
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,224评论 3 371
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,974评论 2 355