初识crushmap
CRUSH Map 包含 OSD 列表、“桶”类型、把设备汇聚为物理位置的“桶”列表、和指示 CRUSH 如何复制存储池里的数据的规则列表。
Crushmap devices
搭建好集群后(本文所有操作基于ceph版本luminous),在没有添加osd进集群时,此时通过'ceph osd crush dump'查看crushmap的设备,你会发现此时的devices为空。形如:
那么,什么操作会导致crushmap的devices写入信息呢?答:将osd加入到集群时。我们来实践一下。
本文使用的部署集群osd命令如下:
///////准备格式化LVM设备并将其与OSD关联:
ceph-volume lvm prepare --bluestore --data {device-path}
//////列出与Ceph相关的逻辑卷和设备;可用于查看{osd id} {osd fsid}
ceph-volume lvm list
//////激活发现并安装与OSD ID关联的LVM设备并启动Ceph OSD
ceph-volume lvm activate {osd-id} {osd-fsid}
/////当需要激活的osd较多时,可以一次性激活所有
ceph-volume lvm activate --all
部署集群osd后,观察crushmap devices如下:
Crushmap types
Crushmap中的types定义了所有bucket的类型,集群搭建好后,这些类型就可以查看到。通过ceph osd crush dump查看如下:
在定义bucket分级拓扑结构中,root类型的桶为改分级结构的根节点。
Crushmap buckets
Ceph在存储数据的过程中,其CRUSH算法会根据各设备的权重(weight值反映)、大致统一的将数据对象分布到存储设备上。crushmap中的buckets是一系列分级桶实例的集合,其表达的是一种逻辑上的分级拓扑结构 (树型结构)。创建桶分级拓扑接口的目的是CRUSH在存储数据时按故障域隔离叶子节点(osd、host、rock....),数据冗余,达到数据安全。
在ceph的集群中有一个特殊的名为"default"的桶分级拓扑结构,它从集群搭建好就存在。如下:
default桶分级结构包含root、host、osd三种桶类型,其应该如实的反映集群存储设备的关系(集群几个主机、每个主机下有哪些osd).当osd出问题时,可根据该拓扑找到对应的物理硬件。
操作crushmap bucket相关命令详述:
1.添加一个bucket实例:
ceph osd crush add-bucket {bucket-name} {bucket-type}
上述命令执行后,集群crushmap会多一条形如:
{
"id": -9, //唯一id标识
"name": "data", //bucket_name,该bucket_name不能重复
"type_id": 1, //buckt_type id ,对应于crushmap的types中的一项
"type_name": "host",//bucket 实例类型
"weight": 0,//该bucket的权重
"alg": "straw2",
"hash": "rjenkins1",
"items": []// 该bucket的子bucket信息(树形理解)
}
2.移动bucket层级
ceph osd crush move {bucket-name} {args...}
执行上述命令后,可以将{buckt-name}移动到{args}指定的层级下, 作为{args}的孩子节点,其中args形如{bucket_type}={name}。
3.添加osd到一个分级结构
ceph osd crush add/set osd.{osd-id} {weight} {args}
上述命令中的{weight}值表明该osd的存储能力(容量),一般1T的盘,weight设为1,{args}知道该osd位置。
- 删除层级结构
将子bucket从父bucket下删除:
ceph osd crush rm {bucket_name} {parent_bucket_name}
只有当一个bucket下没有子bucket时,它才能被删除,否则会报错。
将root bucket删除:
ceph osd crush rm {bucket_name}
- 调整dafault层级结构真实反映物理设备情况
如果不调整default的层级,只是将osd加入集群中,此时是没有分级结构的,如下:
本文实践的集群环境:3个主机、每个主机下2个osd,其拓扑结构如下:
调整过程命令如下:
#添加3个主机
1082 ceph osd crush add-bucket node81 host
1083 ceph osd crush add-bucket node82 host
1084 ceph osd crush add-bucket node85 host
1085 ceph osd tree
#将3个主机移动到default下
1086 ceph osd crush move node81 root=default
1087 ceph osd tree
1088 ceph osd crush move node82 root=default
1089 ceph osd crush move node85 root=default
1090 ceph osd tree
#添加osd.0/osd.1到node81下
1091 ceph osd crush add osd.0 0.00977 root=default host=node81
1092 ceph osd tree
1093 ceph osd crush add osd.1 0.00977 root=default host=node81
#添加osd.0/osd.1到node82下
1094 ceph osd crush add osd.2 0.00977 root=default host=node82
1095 ceph osd crush add osd.3 0.00977 root=default host=node82
#添加osd.0/osd.1到node85下
1096 ceph osd crush add osd.4 0.00977 root=default host=node85
1097 ceph osd crush add osd.5 0.00977 root=default host=node85
1098 ceph osd tree
1099 history
创建完成后,集群的default拓扑图如下:
- 完整创建一个自定义分级拓扑:
#创建root bucket
1105 ceph osd crush add-bucket data root
#创建各层级
1106 ceph osd crush add-bucket data_node81 host
1107 ceph osd crush add-bucket data_node82 host
1108 ceph osd crush add-bucket data_node85 host
#调整各层级
1109 ceph osd crush move data_node81 root=data
1110 ceph osd crush move data_node82 root=data
1111 ceph osd crush move data_node85 root=data
#添加osd
1112 ceph osd crush add osd.1 0.00977 root=data host=data_node81
1113 ceph osd crush add osd.0 0.00977 root=data host=data_node81
1114 ceph osd crush add osd.2 0.00977 root=data host=data_node82
1115 ceph osd crush add osd.3 0.00977 root=data host=data_node82
1116 ceph osd crush add osd.4 0.00977 root=data host=data_node85
1117 ceph osd crush add osd.5 0.00977 root=data host=data_node85
1118 ceph osd tree
1119 history
完成后如下:
- 删除一个完整的层级结构实践
#将osd.0、osd.1从node81删除(删除叶子节点)
1129 ceph osd crush rm osd.0 data_node81
1130 ceph osd crush rm osd.1 data_node81
1131 ceph osd tree
#将主机data_node81从data下删除
1132 ceph osd crush rm data_node81 data
#将osd.2、osd.3从node82删除
1133 ceph osd crush rm osd.2 data_node82
1134 ceph osd crush rm osd.3 data_node82
1135 ceph osd crush rm data_node82 data
#将osd.4、osd.5从node85删除
1136 ceph osd crush rm osd.4 data_node85
1137 ceph osd crush rm osd.5 data_node85
1138 ceph osd crush rm data_node85 data
1139 ceph osd tree
删除root bucket(data)
1140 ceph osd crush rm data
1141 history
Crushmap rules
crushmap中的rules是一系列存储池规则的集合。存储池规则(rule)确定一个存储池的数据如何归置:数据的冗余份数、数据隔离级别等。下面简单的查看说明一下:
//查看当前集群所有的的crush rule name
[root@node81 ~]# ceph osd crush rule list
replicated_rule
//查看当前集群所有的的crush rule详情
[root@node81 ~]# ceph osd crush rule dump
[
{
"rule_id": 0, #rule id(唯一表示)
"rule_name": "replicated_rule",#rule name
"ruleset": 0,#区分一条规则属于某个规则集的手段
"type": 1,#rule 类型(纠删码或副本)
"min_size": 1,#可以选择此规则的存储池最小副本数
"max_size": 10,#可以选择此规则的存储池最大副本数
"steps": [
{
"op": "take",
"item": -1,
"item_name": "default" #root bucket(根节点)
},
{
"op": "chooseleaf_firstn",
"num": 0,
"type": "host" #隔离数据粒度(故障域级别)
},
{
"op": "emit"
}
]
}
]
[root@node81 ~]#
编辑crushmap
1.获取集群crushmap
ceph osd getcrushmap -o {file1}
{file1}为自定义的文件名,该文件为二进制文件,不可编辑。要想编辑此文件,需要用工具将其反编译解析,如crushtool工具。
2反编译crushmap
crushtool -d {file1} -o {file2}
反编译二进制文件{file1}得到可编辑文件{file2}
3.编辑crushmap
按自我需求修改可编辑文件{file2}
4.编译crushmap
要想编辑后的文件机器能够识别,必须用工具编译它生成二进制文件。
crushtool -c {file2} -o {file3}
5.注入crushmap
要想新的crushmap在集群中生效,必须将其注入要集群。
ceph osd setcrushmap -i {file3}
参考资料:
1.ceph 官方文档
更多详情,详见官网:
http://docs.ceph.org.cn/rados/operations/crush-map/