记5.1假期故障处理,苦逼的运维人
故障现象
虚拟化平台部分虚拟机显示CPU hung死,ssh登录异常,测试环境服务异常。如下图所示:登录查看对应存储集群状况,发现osd都正常,只有1个PG处于recovering状态,并没有down掉的osd,但是有好多阻塞的慢请求:
排查osd性能,发现有一个osd的读取和写入时延都特别高
fs_commit_latency
写入延迟时间,表示写journal的完成时间(毫秒)
fs_apply_latency
读取延迟,表示写到osd的buffer cache里的完成时间(毫秒)
通过ceph daemon osd.64 dump_historic_ops
查看这个osd上所有client的op的时延duration,确实存在处理时间较高的情况
通过smartctl -a /dev/sdi
查看硬盘的寿命,确认ssd盘寿命已不足
在获取到硬盘的SMART值(VALUE)后我们就可以通过与THRESH值比对来获得硬盘当前的健康情况。其中重点关注以下几个值。
Re-allocatedSector Count(5h)
定义:此属性的原始值显示自离开工厂以来坏块数量(已增长的缺陷计数)。VALUE值初始100,阈值0。接近0时表示硬盘即将失效。
AvailableReserved Space(AA)
报告剩余的保护区数量。
规范化值从100 (64h)开始,这相当于保留空间的100%可用性。此属性的阈值为10%可用性。VALUE值初始100,阈值10,低于10硬盘失效。
End to End Error Detection Count(B8)
Intel第二代的34nm固态硬盘有点到点错误检测计数这一项。固态硬盘里有一个LBA(logical block addressing,逻辑块地址)记录,这一项显示了SSD内部逻辑块地址与真实物理地址间映射的出错次数。 VALUE值初始100,阈值90,低于90硬盘直接故障。
Current PendingSector Count(C5)
数据应为0,当前值应远大于临界值。这个参数的数据表示了“不稳定的”扇区数,即等待被映射的扇区(也称“被挂起的扇区”)数量。如果不稳定的扇区随后被读写成功,该扇区就不再列入等待范围,数据值就会下降。VALUE值初始100,阈值0,接近0时表示硬盘即将失效。
Media_Wearout_Indicator(E9h)
value表示NAND寿命百分比,降低为1后表示NAND已经写穿. VALUE值初始100,阈值0,接近0时表示硬盘即将失效。
UDMA_CRC Error Count
故障修复
-
先调整参数osd_pool_default_min_size恢复客户端读写
按照我们集群的统一配置,这个参数应该是小于osd_pool_default_size参数的,所以排查下为什么没有生效
结果显示osd_pool_default_min_size为0,实际查看存储池生效参数
为什么会有区别呢,查看相关资料
1.如果ceph.conf里面osd_pool_default_min_size=0,那么创建pool的时候min_size=(副本数-副本数/2的整数),也即min_size=(3-取整(3/2))=2
2.如果ceph.conf里面osd_pool_default_min_size不为0,那么min_size=min(min_size, 副本数),例如ceph.conf的min_size配置为1,那么min_size=在(1,3)中取个小的数 =1
执行ceph osd pool set ssd min_size 1
调整为1
2.调整osd reweight,让pg不再分配读写到这个osd
ceph osd reweight 64 0
3.等待集群最终恢复health: HEALTH_OK
故障处理完成,回去接着睡觉,醒来再写文档.....
参考文档
[1].osd_pool_default_min_size配置(https://blog.csdn.net/a1454927420/article/details/98080139)
[2].osd时延较高(http://www.strugglesquirrel.com/2020/10/30/ceph%E8%BF%90%E7%BB%B4%E5%A4%A7%E5%AE%9D%E5%89%91%E4%B9%8Bosd%E5%BB%B6%E6%97%B6%E8%B0%83%E6%9F%A5/)
[3].ssd盘故障判断(https://blog.csdn.net/liudalab/article/details/79485646)
[4].ceph的weight和reweight的理解(https://blog.csdn.net/qq_40017427/article/details/107401851)