系统运维告警阈值

数据库
连接数:大于1600,触发警告
运行线程数:大于25,触发警告
锁:MySQL InnoDB 行锁过多,innodb_row_lock_time avg/s > 400ms
QPS: 大于6000,处罚警告

Redis
慢查询:大于10ms
Aof 时长
Fork 时长
QPS: 大于20000,触发警告

ES
索引耗时:单次索引平均耗时一般情况下控制在20ms
节点读取队列:正在情况下队列里不会值,队列有值时说明集群有可能处理不完要进行告警

CPU
负载:单核2分钟持续负载超过0.7要报警
使用率:2分钟持续超过40%要报警
lowait:4分钟持续超过405要报警

磁盘
使用率:超过总量的85%,触发报警
Inode:超过总量的80%,触发报警
disk_io_await: 持续3分钟大于6ms,触发报警

内存
使用率:系统持续占用内存总量不能超过80%,触发报警
swap:持续两分钟大于10%,触发报警

其它
TCP:持续 1分钟close_wait>500,触发报警,持续2分钟time_wait>1w,触发报警

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。