故障描述:检查es索引发现几个大索引在半夜停了,查看redis发现已经被撑爆内存重启过了。集群状态为红色,logstash日志显示:
[2019-11-26T01:19:59,534][INFO ][logstash.outputs.elasticsearch] retrying failed action with response code: 403 ({"type"=>"cluster_block_exception", "reason"=>"index [xxx] blocked by: [FORBIDDEN/12/index read-only / allow delete (api)];"})
检查各台服务器,发现有几台服务器磁盘使用量达到80%以上。
解决:当服务器磁盘使用率过高时,es会拒绝继续写入数据,所以将时间较远的数据删除。
我的集群中有两台服务器的磁盘容量只有其他服务器的三分之一,这有可能成为整个系统的瓶颈,所以搭建系统的时候最好每台服务器磁盘容量相同。