lsm树

会计师不使用橡皮擦,否则将入狱

不可变存储结构不允许直接修改记录,它会向文件追加一条新的记录。找到一个key对应的value,需要综合key所有修改记录。不可变存储结构,因为数据写入后就不会修改,具有并发安全性。对于b+ tree这种可变存储结构来说,每一次update都会找到磁盘上对应的记录,然后更新,磁盘io是随机的,因此新能较差,而类似于lsm-tree,所有的add、update都是向文件追加记录,不需要查找历史文件的记录,都是顺序io,所以写入性能较好。下面聚焦lsm-tree的两个问题:

  • lsm-tree如何构建?
  • 有哪些性质?

这里说的可变存储与不可变存储是指update操作是否会原地更新记录

LSM Trees(log-structured merge)

LSM tree 并不是一种树,LSM指的是一种思想,它将所以的修改以log的形式写入文件。由于写入到磁盘的文件不可修改,当文件数量较多时需要通过merge sort的方式合并文件,管理文件,回收磁盘空间。

因为文件不可变性,insert、update、delete不需要定位磁盘上数据记录的位置,没有随机的IO,可以极大的提高写入性能。这也会带来重复过时的记录,read会处理这些重复数据,只返回最新的数据。LSM tree非常适合于写远大于读的应用。除此之外,不可变的设计也是的存储引擎在并发的设计上比较简单高效。

LSM tree结构

LSM tree是由较小的内存table和较大的磁盘table组成,内存table作为写入的缓存,并对写入记录排序,然后flus到磁盘。
内存驻留的table被称作memtable,是可变的,它作为写入的缓存,并且服务一部分读操作。memtable的大小超过配置的阈值,就会被持久化到磁盘。内存中的数据在机器重启后就会丢失,为了恢复数据,需要将wirte操作记录写入(write ahead log) wal。在通知客户端写入成功之前,记录需要追加到wal file,然后写入内存。
所有的读写操作都会应用到驻留在内存的memtable,维护一个可并发访问的有序数据结构。
磁盘上的组件是由内存中的memtableflush到磁盘上创建的,只能用来被读操作,文件持久化之后,就不会被修改。

Multicomponent LSM Trees

LSM Trees由一个memtable 和多个磁盘table组成。系统经过一段时间的运行,磁盘上的不可变table就会越来越多。因为我们不知道哪个文件存储了我们想要的数据,一次查询操作可能需要访问多个文件,因此读操作的代价就会变高。为了缓解这个问题,一个称作compaction的周期性merge过程就会触发,读取多个磁盘table,合并数据,生成新的文件,旧的文件会被丢弃。

In-memory table

memtable使用大小阈值或者周期性触发刷盘操作。再刷盘之前,会有一些操作:

  • 新的memtable被创建
  • 写入操作会指向新的memtable,旧的memtable转变为flushing状态,这两部操作需要保证原子性
  • flushing memtable继续保证可读直到flush完成。
  • memtable被丢弃,磁盘上新生成的table转换为可读
LSM component structure

update delete

LMS tree的insert, update, delete不需要在磁盘上定位记录的位置。而删除操作不能仅仅删除一条记录,因此磁盘或者内存驻留table会同时保存同一个key的记录。因此,删除操作是插入一条特殊标记的记录,表明该key之前的对应所有记录都是无效的,当然也可以通过谓词来标记删除记录。k2,k3这两条记录就会被屏蔽。
tombstone是compaction过程中保证正确调协数据很重要的信息。compaction 过程中,tombstone记录不会被直接丢弃,rocketdb会将其保存到最大level层的文件中,以确保不会存在其他记录。tombstone需要覆盖其之前写入对应key的所有记录

predicate

leveled compaction

lsm tree中有多种compaction策略,rocketdb使用的是leveled compactionleveled compaction将磁盘驻留table分成不同的层次。level-0 table是memtable刷到磁盘生成的,因此内存中memtable中key的范围是不确定,用户写入什么key,范围就会发生变化,所以level-0 tables的key 范围是重叠的,level-1 及以上的table key范围都不会重复。merge一个level-0的table到level-1,可能需要读取所有的level-1的文件。
level-1 及以上的table的merge会选取当前level的一个table和下一个level key有重叠de两个文件,也有可能是多个文件,取决与key是否有重叠。


每一个level的table数量以及文件大小都有限制,一旦table数量超过阈值,该level的table就会merge到下一个level 可以有重叠的文件上。不同level 上的table 大小有指数级关系。

Apache Cassandra 实现了一种time window的compaction策略,对于时序数据负载,记录会存在特定的时间周期后就会失效。

read, write space 放大

当实现compaction策略时,我们需要考虑多种因素,其中一种便是回收被重复记录占用磁盘空间从而引起不断重写table导致的写放大问题。我们也可以避免持续的重写table,然而会导致读放大。

Sorted String Tables

磁盘驻留table通常使用 Sorted String Tables (SSTables)。SSTables重的记录是根据key来排序的,通常由两个文件组成:索引文件和数据文件。索引文件通常是由b-tree和hashtable来实现。数据文件中的记录都是有序存储的,虽然使用了hashtables来存储索引,但也不妨碍我们执行范围扫描,hashtables仅仅是用来获取数据文件中范围扫描的第一个key对应数据的位置。索引文件保存了key以及数据的在数据文件中offset.compaction过程不需要读取索引文件,因为数据文件中数据本来就是有序的。

Bloom Filters

LSM tree中查询一个不存在的数据会非常耗时,因为需要读取很多磁盘驻留的table。为了记录数据是否存在于LSM tree,rocketdb使用了Bloom Filters,bit array,可用来表示key可能存在,后者肯定不存在。Bloom Filters使用多个hash函数,计算key的哈希值,也就是位置,写入时在这些位置记录1,查询时使用相同的hash函数算出key的位置,判断所有值是否为1,只要有一个位置的值不为1,就说明该key不存在,但都存在时也不能说明该key一定存在,因为存储空间有限,hash函数计算的值可能存在碰撞.
bloom filter
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,928评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,192评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,468评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,186评论 1 286
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,295评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,374评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,403评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,186评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,610评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,906评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,075评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,755评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,393评论 3 320
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,079评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,313评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,934评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,963评论 2 351

推荐阅读更多精彩内容