ceph后端存储引擎

现在是2020年4月,ceph的发展已经到了BlueStore替代FileStore。在此记录一下对ceph后端存储引擎的发展经过,BlueStore的研发原因,即FileStore的缺陷,BlueStore当前的架构,优势,劣势以及当前BlueStore的痛点,即可以发力优化的方向。

首先,为什么会孕育BlueStore,这要说到FileStore的架构设计上的痛点。重点关注点为ceph OSD对来自客户端的I/O请求。OSD内部提供抽象接口ObjectStore。这个ObjectStore是ceph osd最最重要的概念之一,它封装了所有对底层存储的IO操作。它提供读写的事务API。

ObjectStore主要接口有三部分:1.Object读写操作(相当于POSIX);2.Object的属性读写操作;3.关联Object的kv操作(omap)

ceph后端存储引擎的发展 

最初实现:EBOFS(Extent and B-Tree-based Object File System),就是一个文件系统,但缺少事务(ACID)和校验和(保证数据的完整性和准确性)。

Btrfs作为FileStore的存储后端:提供了事务,校验,数据去重功能。但是该文件系统存在碎片化现象严重的问题。

XFS作为FileStore的存储后端:仍然有元数据碎片化问题,无法充分利用硬件设备性能。同时缺少事务支持,需要额外实现WAL机制提供事务功能。

NewStore:将对象的元数据和对象数据进行分离,引入kv数据库优化了元数据管理。但文件系统层面仍然存在写放大问题。

总的来说,FileStore中,元数据管理和写放大问题成为限制ceph性能的原因。

BlueStore

BlueStore将数据直接保存在存储设备中,而元数据先保存在RocksDB中,在通过一个给RocksDB定制的轻量级文件系统BlueFS将数据持久化至存储设备中。这样设计,可以使元数据只存在于RocksDB,无需视图保证kv store与文件系统中元数据一致,可以更高效地支持事务。(事务的特征是ACID,即原子性,一致性,隔离性,持久性。要实现事务,可以有两种方案,一种是使用文件系统内部的事务机制,涉及到内核操作,不现实;还有一种方案是在用户态实现WAL,即Write-Ahead-Log,先写日志再持久化到磁盘,但是这会导致频繁调用fsync以持久WAL和数据,使用kv Store可以缓解开销,但是保证kv Store与文件系统中的元数据一致性又会引入新的开销。在BlueStore的涉及中,元数据只放在kv Store中,也就不需要做kv Store与文件系统的一致性,从而提高事务的效率)

再者,BlueStore中通过元数据的键值前缀将其组织成不同的Namespace,这样,可以将元数据键值前K位相同的文件定义成属于统一文件夹,这样,通过改变K的值可以快速实现文件夹分裂。(因为在ceph中常常要对特定目录下的文件进行遍历,这一操作会随着目录文件数量的增长而下降,同时只返回无序结果。利用传统文件系统解决这个问题,需要文件尽量均匀分布在各个目录,当文件数量超过阈值,对目录进行分裂操作,inode数量增多,即目录数量增加,不仅会则更加dentry cache的效率,即目录项高速缓存效率降低,也增加小型I/O操作的次数,甚至使得数据分布更加零散,降低了空间局部性。空间局部性是指一旦一个指令一个存储单元被访问,那么它附近的单元也将很快被访问。空间局部性降低,势必会影响访问效率)

还有一点,由于BlueStore拥有对I/O栈的完全控制,可以自由决定使用哪种硬件接口,同时由于COW的更新方式,BlueStore可以很好的兼容Zoned Interface。

BlueStore目前存在的问题

1.BlueStore需要自己实现页缓存动态调整大小的机制,面对拥有超高存储性能的NVMe SSD,缓存需要更加高效才能减小SSD的写负载。

2.引入RocksDB带来的问题:压缩机制写放大问题成为了主要性能限制。(为什么会成为瓶颈?)

3.RocksDB有自己的线程模型,限制了自定义分片的能力。

4.跨越内核的存储后端控制几乎所有的内存,内存的优化和隔离机制需要手动实现。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,377评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,390评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,967评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,344评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,441评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,492评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,497评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,274评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,732评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,008评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,184评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,837评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,520评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,156评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,407评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,056评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,074评论 2 352

推荐阅读更多精彩内容