Luminous版本的ceph引入了 device class,目的是解决 我们日常中相同主机下,或者不同主机混有ssd,或者 nvme,sas 硬盘,普通sata组成的磁盘osd管理问题。以前为了管理这个问题。我们会使用crush 命令去创建 虚拟的 bucket 比如 root 还有host,移动 osd 去不同的 host,root 上。虽然问题可以解决。但是带来一些管理上的混乱。比如需要系统conf 加上osd_crush_update_on_start =false。如果不加这个,systemctl osd 启动脚本会在启动的时候会让 osd 回到osd 本身的host归属下面。如果这个时候已经有了pool 规则和数据。问题就大了。这个时候ceph 推出了 class 标签这个功能,非常好用。
为了解决这个问题,Luminous 为每个OSD添加了一个新的属性:设备类。默认情况下,OSD将根据Linux内核公开的硬件属性自动将其设备类设置为HDD、SSD或NVMe(如果尚未设置)。这些设备类在ceph osd tree 中列出
看下面第一列,hdd 和 ssd
一,crush管理问题
CEPH集群通常使用多种类型的存储设备构建:HDD、SSD、NVMe,甚至上述各种类型的存储设备。我们将这些不同类型的存储设备称为,以避免crush 桶的类型属性(如主机、机架、行等)之间的混淆。由SSD支持的CEPH OSD比普通磁盘支持的OSD快得多,这让它们更适合于某些工作负载,这一点不足为奇。CEPH使为不同的数据集或工作负载创建RADOS pool 并分配不同的crush 规则来控制这些池的数据放置。
官方介绍如下
The flexibility of the CRUSH map in controlling data placement in Ceph is one of the system’s great strengths. It is also one of the most painful and awkward parts of the cluster to manage. Previously, any non-trivial data placement policy required manual editing of the CRUSH map, either to adjust the hierarchy or to write the rules that implement the data placement policy. In Luminous, we’ve added a new “device class” feature that automates one of the most common reasons CRUSH maps are directly edited, bringing us much closer to our goal of never requiring administrators to manually modify their CRUSH maps.
网上关于 class 的博客很多,不过 Luminous 早起关于 class 的创建 和管理有了一些变化
其中class的分类不能用命令创建了。 而是通过关联命令直接系统创建。这个是最大的不同。
所以我觉得这个文章还是要写一下。
变化如下:
以前
现在 已经没有 ceph osd crush class create 了 !!!
#ceph osd crush class
no valid command found; 3 closest matches:
osd crush class ls
osd crush class ls-osd <class>
osd crush class rename <srcname> <dstname>
改成了什么呢?
用 ceph osd crush set-device-class 自动创建
用ceph-deploy 创建的 osd 默认是 hdd
ceph osd crush class ls
[
"hdd",
]
这个 class 已经不需要创建了,可以删掉某个ssd 的class,再设置为 ssd clas。
就自动多了一个ssd class 。
我们测试一下,
#ceph osd crush rm-device-class osd.4
done removing class of osd(s): 4
ceph osd tree 看到如下 标签没了
这个是有可以设置 ssd 标签了
# ceph osd crush set-device-class ssd osd.4
set osd(s) 4 to class 'ssd'
osd tree 已经看到 标签变为 ssd 了。
再看 crush class 分类标签
ceph osd crush class ls
再看看 crush tree 里面隐藏项目
你会发现 多了些 root default~ssd 之类的东西。 注意这个“ ~” 并不是 bug
osd crush tree {--show-shadow} dump crush buckets and items in a tree view
#
ceph osd crush tree --show-shadow
ID CLASS WEIGHT TYPE NAME
-12 ssd 2.62738 root default~ssd
-9 ssd 0.87579 host ssd1~ssd
4 ssd 0.43790 osd.4
5 ssd 0.43790 osd.5
-10 ssd 0.87579 host ssd2~ssd
10 ssd 0.43790 osd.10
11 ssd 0.43790 osd.11
-11 ssd 0.87579 host ssd3~ssd
18 ssd 0.43790 osd.18
19 ssd 0.43790 osd.19
-2 hdd 6.54346 root default~hdd
-4 hdd 2.18115 host ssd1~hdd
0 hdd 0.54529 osd.0
1 hdd 0.54529 osd.1
2 hdd 0.54529 osd.2
3 hdd 0.54529 osd.3
-6 hdd 2.18115 host ssd2~hdd
6 hdd 0.54529 osd.6
7 hdd 0.54529 osd.7
8 hdd 0.54529 osd.8
9 hdd 0.54529 osd.9
-8 hdd 2.18115 host ssd3~hdd
12 hdd 0.54529 osd.12
13 hdd 0.54529 osd.13
16 hdd 0.54529 osd.16
17 hdd 0.54529 osd.17
-1 9.17084 root default
-3 3.05695 host ssd1
0 hdd 0.54529 osd.0
1 hdd 0.54529 osd.1
2 hdd 0.54529 osd.2
3 hdd 0.54529 osd.3
4 ssd 0.43790 osd.4
5 ssd 0.43790 osd.5
-5 3.05695 host ssd2
6 hdd 0.54529 osd.6
7 hdd 0.54529 osd.7
8 hdd 0.54529 osd.8
9 hdd 0.54529 osd.9
10 ssd 0.43790 osd.10
11 ssd 0.43790 osd.11
-7 3.05695 host ssd3
12 hdd 0.54529 osd.12
13 hdd 0.54529 osd.13
16 hdd 0.54529 osd.16
17 hdd 0.54529 osd.17
18 ssd 0.43790 osd.18
19 ssd 0.43790 osd.19
这个隐藏的 crush root default~ssd 是不需要特别指定的,之前一些文章是luminous 早期的做法
官方doc 里面有:
ceph osd crush rule create-replicated <rule-name> <root> <failure-domain> <class>
#osd crush rule create-replicated <name> <root> <type> {<class>} : create crush rule <name> for replicated pool to start from <root>, replicate across buckets of type <type>, using a choose mode of <firstn|indep> (default firstn; indep best for erasure pools)
实际操作
#ceph osd crush rule create-replicated ssdnew default host ssd
创建 名字为ssdnew 的rule root =default,故障域host ,class=ssd
注意:只需要写 defult,不需要写default~ssd
看一下创建好的 rule ssdnew
#ceph osd crush rule dump ssdnew
{
"rule_id": 2,
"rule_name": "ssdnew",
"ruleset": 2,
"type": 1,
"min_size": 1,
"max_size": 10,
"steps": [
{
"op": "take",
"item": -12,
"item_name": "default~ssd"
},
{
"op": "chooseleaf_firstn",
"num": 0,
"type": "host"
},
{
"op": "emit"
}
]
}
也就是说通过 class 去关联了 default~ssd
创建一个 pool 测试一下
#ceph osd pool create ssdpool2 128 128 replicated ssdnew
pool 'ssdpool2’ created
查看pg 随便看一个pg
2.68 0 0 0 0 0 0 0 0 active+clean 2019-04-04 11:15:14.691169 0'0 128:13 [10,4,18] 10 [10,4,18] 10 0'0 2019-04-04 11:15:13.669816
10,4,18 都是 我机器上的 6个ssd osd。
class 比以前修改crush rule 的方式方便非常多
下面 贴出官方 对纠删码的 创建ec profile 的说明
$ ceph osd erasure-code-profile set myprofile k=4 m=2 crush-device-class=ssd crush-failure-domain=host
$ ceph osd pool create ecpool 64 erasure myprofile
以上都是个人测试记录,如果有不正确地方请联系本人指出,同时欢迎加入ceph 中国社区一起讨论
QQ :8488031 广州-西瓜