登录注册写文章

ceph bluestore

ceph bluestore

ceph bluestore是在newstore上去掉文件系统的实现，现在newstore已经废弃。

为什么bluestore?

More natural transaction atomicity
Avoid double writes
Efficient object enumeration
Efficient clone operation
Efficient splice (“move these bytes from object X to object Y”)
Efficient IO pattern for HDDs, SSDs, NVMe
Minimal locking, maximum parallelism (between PGs)
Full data and metadata checksums
Inline compression

上述是newstore的目标，但是并未全部实现，尤其是overwrite的情况，数据仍然需要wal，将其写入rocksdb，显然不是一个很好的方案。
bluestore上相应的实现如下：

事务由kvdb提供，不再额外使用journal
object的元数据放入db，使用db接口实现enumeration
clone, splice,split collection只修改元数据
使用裸盘，支持dio + aio，支持各种device
使用裸盘之后，数据采用cow的方式写，数据片段化，可以对每个片段实现checksum
在数据片上支持压缩

bluestore.png

rocksdb on raw

但是仅仅如此还不够，rocksdb on xfs也有额外的开销，为了去掉这部分开销。架构调整为：

ceph_bluestore.png

下面使用2个BlockDevice是因为Rocksdb支持wal和db数据的分离。

rocksdb本身实现也在改进，支持dio等，rocksdb on bluefs的实现有多大效果有待观测。

后续

目前bluestore的架构基本定型，但是仍然有很多地方急需改进。
空间管理，内存cache，meta layout, kvdb on raw 都有很大的发挥空间，结合业务特点对上述三大块可以做一些垂直优化。

最后编辑于：2017.12.05 07:11:09

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

相关阅读更多精彩内容

Spring Cloud
Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具（例如配置管理，服务发现，断路器，智...
卡卡罗2017阅读 136,736评论 19赞 139
[3/4]我所经历的大数据平台发展史（三）：互联网时代 • 上篇
//我所经历的大数据平台发展史（三）：互联网时代 • 上篇http://www.infoq.com/cn/arti...
葡萄喃喃呓语阅读 51,726评论 10赞 199

关于ios本地大容量存储sqlite优化
随着app信息量越来越大，每次从网络获取数据已经不是很可取的方案了，本地数据库的运用已经越来越普遍了。而说道移动端...
taosiyu阅读 4,816评论 12赞 13
iOS开发常用三方库集合OC版(三方库、插件、博客等等)
Swift版本点击这里欢迎加入QQ群交流: 594119878最新更新日期：18-09-17 About A cu...
ylgwhyh阅读 26,375评论 7赞 249
Navigator组件中使用不同的弹入效果
在初始化Navigator的时候，一般会设置configureScene属性用于设定组件的弹入效果，比如从底往上，...
NextStack阅读 321评论 0赞 0

友情链接更多精彩内容

赞1赞

赞赏

手机看全文