ceph写入时延高导致虚拟机hang死的故障处理

记5.1假期故障处理,苦逼的运维人

故障现象

虚拟化平台部分虚拟机显示CPU hung死,ssh登录异常,测试环境服务异常。如下图所示:
虚拟机异常体现

登录查看对应存储集群状况,发现osd都正常,只有1个PG处于recovering状态,并没有down掉的osd,但是有好多阻塞的慢请求:
ceph集群异常图

排查osd性能,发现有一个osd的读取和写入时延都特别高
osd性能

fs_commit_latency
写入延迟时间,表示写journal的完成时间(毫秒)
fs_apply_latency
读取延迟,表示写到osd的buffer cache里的完成时间(毫秒)

通过ceph daemon osd.64 dump_historic_ops查看这个osd上所有client的op的时延duration,确实存在处理时间较高的情况
通过smartctl -a /dev/sdi查看硬盘的寿命,确认ssd盘寿命已不足

ssd盘寿命

在获取到硬盘的SMART值(VALUE)后我们就可以通过与THRESH值比对来获得硬盘当前的健康情况。其中重点关注以下几个值。
Re-allocatedSector Count(5h)
定义:此属性的原始值显示自离开工厂以来坏块数量(已增长的缺陷计数)。VALUE值初始100,阈值0。接近0时表示硬盘即将失效。
AvailableReserved Space(AA)
报告剩余的保护区数量。
规范化值从100 (64h)开始,这相当于保留空间的100%可用性。此属性的阈值为10%可用性。VALUE值初始100,阈值10,低于10硬盘失效。
End to End Error Detection Count(B8)
Intel第二代的34nm固态硬盘有点到点错误检测计数这一项。固态硬盘里有一个LBA(logical block addressing,逻辑块地址)记录,这一项显示了SSD内部逻辑块地址与真实物理地址间映射的出错次数。 VALUE值初始100,阈值90,低于90硬盘直接故障。
Current PendingSector Count(C5)
数据应为0,当前值应远大于临界值。这个参数的数据表示了“不稳定的”扇区数,即等待被映射的扇区(也称“被挂起的扇区”)数量。如果不稳定的扇区随后被读写成功,该扇区就不再列入等待范围,数据值就会下降。VALUE值初始100,阈值0,接近0时表示硬盘即将失效。
Media_Wearout_Indicator(E9h)
value表示NAND寿命百分比,降低为1后表示NAND已经写穿. VALUE值初始100,阈值0,接近0时表示硬盘即将失效。
UDMA_CRC Error Count

故障修复

  1. 先调整参数osd_pool_default_min_size恢复客户端读写
    按照我们集群的统一配置,这个参数应该是小于osd_pool_default_size参数的,所以排查下为什么没有生效


    ceph生效min_size

    结果显示osd_pool_default_min_size为0,实际查看存储池生效参数
    存储池生效参数

    为什么会有区别呢,查看相关资料

1.如果ceph.conf里面osd_pool_default_min_size=0,那么创建pool的时候min_size=(副本数-副本数/2的整数),也即min_size=(3-取整(3/2))=2
2.如果ceph.conf里面osd_pool_default_min_size不为0,那么min_size=min(min_size, 副本数),例如ceph.conf的min_size配置为1,那么min_size=在(1,3)中取个小的数 =1

执行ceph osd pool set ssd min_size 1调整为1
2.调整osd reweight,让pg不再分配读写到这个osd
ceph osd reweight 64 0
3.等待集群最终恢复health: HEALTH_OK

故障处理完成,回去接着睡觉,醒来再写文档.....

参考文档

[1].osd_pool_default_min_size配置(https://blog.csdn.net/a1454927420/article/details/98080139)
[2].osd时延较高(http://www.strugglesquirrel.com/2020/10/30/ceph%E8%BF%90%E7%BB%B4%E5%A4%A7%E5%AE%9D%E5%89%91%E4%B9%8Bosd%E5%BB%B6%E6%97%B6%E8%B0%83%E6%9F%A5/)
[3].ssd盘故障判断(https://blog.csdn.net/liudalab/article/details/79485646)
[4].ceph的weight和reweight的理解(https://blog.csdn.net/qq_40017427/article/details/107401851)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,186评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,858评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,620评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,888评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,009评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,149评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,204评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,956评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,385评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,698评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,863评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,544评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,185评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,899评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,141评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,684评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,750评论 2 351

推荐阅读更多精彩内容