ceph Luminous crush device class(crush 设备分类)

Luminous版本的ceph引入了 device class,目的是解决 我们日常中相同主机下,或者不同主机混有ssd,或者 nvme,sas 硬盘,普通sata组成的磁盘osd管理问题。以前为了管理这个问题。我们会使用crush 命令去创建 虚拟的 bucket 比如 root 还有host,移动 osd 去不同的 host,root 上。虽然问题可以解决。但是带来一些管理上的混乱。比如需要系统conf 加上osd_crush_update_on_start =false。如果不加这个,systemctl osd 启动脚本会在启动的时候会让 osd 回到osd 本身的host归属下面。如果这个时候已经有了pool 规则和数据。问题就大了。这个时候ceph 推出了 class 标签这个功能,非常好用。

为了解决这个问题,Luminous 为每个OSD添加了一个新的属性:设备类。默认情况下,OSD将根据Linux内核公开的硬件属性自动将其设备类设置为HDD、SSD或NVMe(如果尚未设置)。这些设备类在ceph osd tree 中列出

看下面第一列,hdd 和 ssd 


一,crush管理问题

CEPH集群通常使用多种类型的存储设备构建:HDD、SSD、NVMe,甚至上述各种类型的存储设备。我们将这些不同类型的存储设备称为,以避免crush 桶的类型属性(如主机、机架、行等)之间的混淆。由SSD支持的CEPH OSD比普通磁盘支持的OSD快得多,这让它们更适合于某些工作负载,这一点不足为奇。CEPH使为不同的数据集或工作负载创建RADOS pool 并分配不同的crush 规则来控制这些池的数据放置。

官方介绍如下

The flexibility of the CRUSH map in controlling data placement in Ceph is one of the system’s great strengths.  It is also one of the most painful and awkward parts of the cluster to manage.  Previously, any non-trivial data placement policy required manual editing of the CRUSH map, either to adjust the hierarchy or to write the rules that implement the data placement policy.  In Luminous, we’ve added a new “device class” feature that automates one of the most common reasons CRUSH maps are directly edited, bringing us much closer to our goal of never requiring administrators to manually modify their CRUSH maps.


网上关于 class 的博客很多,不过 Luminous 早起关于 class 的创建 和管理有了一些变化

其中class的分类不能用命令创建了。 而是通过关联命令直接系统创建。这个是最大的不同。

所以我觉得这个文章还是要写一下。

变化如下:

以前


现在 已经没有 ceph osd crush class create 了 !!!


#ceph osd crush class

no valid command found; 3 closest matches:

osd crush class ls

osd crush class ls-osd <class>

osd crush class rename <srcname> <dstname>

改成了什么呢? 

用 ceph osd crush set-device-class 自动创建

用ceph-deploy 创建的 osd 默认是 hdd 


ceph osd crush class ls

[

    "hdd",

]

这个 class 已经不需要创建了,可以删掉某个ssd 的class,再设置为 ssd clas。

就自动多了一个ssd class 。

我们测试一下,

#ceph osd crush rm-device-class osd.4

done removing class of osd(s): 4

ceph osd tree 看到如下 标签没了


这个是有可以设置 ssd 标签了

# ceph osd crush set-device-class ssd osd.4

set osd(s) 4 to class 'ssd'

osd tree 已经看到 标签变为 ssd 了。


再看 crush class 分类标签

ceph osd crush class ls

再看看 crush tree 里面隐藏项目 

你会发现 多了些 root default~ssd 之类的东西。  注意这个“ ~” 并不是 bug  

osd crush tree {--show-shadow} dump crush buckets and items in a tree view

#

ceph osd crush tree --show-shadow

ID  CLASS WEIGHT  TYPE NAME

-12  ssd 2.62738 root default~ssd

-9  ssd 0.87579    host ssd1~ssd

  4  ssd 0.43790        osd.4

  5  ssd 0.43790        osd.5

-10  ssd 0.87579    host ssd2~ssd

10  ssd 0.43790        osd.10

11  ssd 0.43790        osd.11

-11  ssd 0.87579    host ssd3~ssd

18  ssd 0.43790        osd.18

19  ssd 0.43790        osd.19

-2  hdd 6.54346 root default~hdd

-4  hdd 2.18115    host ssd1~hdd

  0  hdd 0.54529        osd.0

  1  hdd 0.54529        osd.1

  2  hdd 0.54529        osd.2

  3  hdd 0.54529        osd.3

-6  hdd 2.18115    host ssd2~hdd

  6  hdd 0.54529        osd.6

  7  hdd 0.54529        osd.7

  8  hdd 0.54529        osd.8

  9  hdd 0.54529        osd.9

-8  hdd 2.18115    host ssd3~hdd

12  hdd 0.54529        osd.12

13  hdd 0.54529        osd.13

16  hdd 0.54529        osd.16

17  hdd 0.54529        osd.17

-1      9.17084 root default

-3      3.05695    host ssd1

  0  hdd 0.54529        osd.0

  1  hdd 0.54529        osd.1

  2  hdd 0.54529        osd.2

  3  hdd 0.54529        osd.3

  4  ssd 0.43790        osd.4

  5  ssd 0.43790        osd.5

-5      3.05695    host ssd2

  6  hdd 0.54529        osd.6

  7  hdd 0.54529        osd.7

  8  hdd 0.54529        osd.8

  9  hdd 0.54529        osd.9

10  ssd 0.43790        osd.10

11  ssd 0.43790        osd.11

-7      3.05695    host ssd3

12  hdd 0.54529        osd.12

13  hdd 0.54529        osd.13

16  hdd 0.54529        osd.16

17  hdd 0.54529        osd.17

18  ssd 0.43790        osd.18

19  ssd 0.43790        osd.19


这个隐藏的 crush  root default~ssd 是不需要特别指定的,之前一些文章是luminous 早期的做法


官方doc 里面有:

ceph osd crush rule create-replicated <rule-name> <root> <failure-domain> <class>

#osd crush rule create-replicated <name> <root> <type> {<class>} : create crush rule <name> for replicated pool to start from <root>, replicate across buckets of type <type>, using a choose mode of <firstn|indep> (default firstn; indep best for erasure pools)

实际操作

#ceph osd crush rule create-replicated ssdnew default host ssd

创建 名字为ssdnew 的rule root =default,故障域host ,class=ssd

注意:只需要写 defult,不需要写default~ssd 

看一下创建好的 rule ssdnew

#ceph osd crush rule dump ssdnew

{

    "rule_id": 2,

    "rule_name": "ssdnew",

    "ruleset": 2,

    "type": 1,

    "min_size": 1,

    "max_size": 10,

    "steps": [

        {

            "op": "take",

            "item": -12,

            "item_name": "default~ssd"

        },

        {

            "op": "chooseleaf_firstn",

            "num": 0,

            "type": "host"

        },

        {

            "op": "emit"

        }

    ]

}



也就是说通过 class 去关联了 default~ssd

创建一个 pool 测试一下

#ceph osd pool create ssdpool2 128 128 replicated ssdnew

pool 'ssdpool2’ created

查看pg 随便看一个pg 

2.68 0 0 0 0 0 0 0 0 active+clean 2019-04-04 11:15:14.691169 0'0 128:13 [10,4,18] 10 [10,4,18] 10 0'0 2019-04-04 11:15:13.669816

10,4,18 都是 我机器上的 6个ssd osd。


class 比以前修改crush rule 的方式方便非常多


下面 贴出官方 对纠删码的 创建ec profile 的说明

$ ceph osd erasure-code-profile set myprofile k=4 m=2 crush-device-class=ssd crush-failure-domain=host

$ ceph osd pool create ecpool 64 erasure myprofile



以上都是个人测试记录,如果有不正确地方请联系本人指出,同时欢迎加入ceph 中国社区一起讨论


QQ :8488031  广州-西瓜

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,417评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,921评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,850评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,945评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,069评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,188评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,239评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,994评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,409评论 1 304
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,735评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,898评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,578评论 4 336
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,205评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,916评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,156评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,722评论 2 363
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,781评论 2 351