ceph问题定位总结

ceph运营中经常会遇到slow request,简单总结下定位这些问题的方法及思路:

  1. 先查看集群的cpu负载,相关命令top;
  2. 再查看磁盘的负责,相关命令iostat、dstat等;
  3. 再查看网络方面的负载,相关命令netstat;netstat的输出结果里面要关注下Recv-Q Send-Q这两个queue的大小,如果Recv-Q比较大的话说明收的较慢,Send-Q比较大说明发的慢;
  4. 使用ceph --admin-daemon asok perf dump等命令来分析,输出结果里面需要主要关注wait那一项,比如:
    "throttle-objecter_bytes": {
        "val": 35652380,
        "max": 838860800,
        "get_started": 17898,
        "get": 2182128,
        "get_sum": 4255599802310,
        "get_or_fail_fail": 17898,
        "get_or_fail_success": 2164230,
        "take": 0,
        "take_sum": 0,
        "put": 1248942,
        "put_sum": 4255564149930,
        "wait": {
            "avgcount": 17897,
            "sum": 4899.822857281
        }
    },
    "throttle-objecter_ops": {
        "val": 15,
        "max": 1024,
        "get_started": 0,
        "get": 2182128,
        "get_sum": 2182128,
        "get_or_fail_fail": 0,
        "get_or_fail_success": 2182128,
        "take": 0,
        "take_sum": 0,
        "put": 2182113,
        "put_sum": 2182113,
        "wait": {
            "avgcount": 0,
            "sum": 0.000000000
        }
    },

这种情况下可能需要调大objecter_inflight_op_bytes,但需要注意的是,调大这个配置项的话,会导致rgw使用内存增加。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,869评论 18 139
  • 背景 一年多以前我在知乎上答了有关LeetCode的问题, 分享了一些自己做题目的经验。 张土汪:刷leetcod...
    土汪阅读 12,768评论 0 33
  • **2014真题Directions:Read the following text. Choose the be...
    又是夜半惊坐起阅读 9,828评论 0 23
  • 教程一:视频截图(Tutorial 01: Making Screencaps) 首先我们需要了解视频文件的一些基...
    90后的思维阅读 4,749评论 0 3
  • 春的脚步 惊醒了万物 大地生动起来 宽阔起来 深情是大地的儿子 风的沧桑抹去了石头梭角 春是万物的画笔 心一暖...
    淘猴侯孙行阅读 340评论 17 15