Learning Design and Coding From LevelDB (keep updating ...)

LevelDB is a fast key-value storage library written at Google by Jeff Dean that provides an ordered mapping from string keys to string values. We could learn design and coding from the source code.

概述

include/leveldb & util

Status

  • include/leveldb/status.h
  • util/status.cc

Status是对每次操作结果的封装, 它只有一个成员变量char state_*来表示状态信息,它包含
三个字段[length, code, message], length表示message的长度,code是返回码,message是状态信息:

  // OK status has a NULL state_.  Otherwise, state_ is a new[] array
  // of the following form:
  //    state_[0..3] == length of message
  //    state_[4]    == code
  //    state_[5..]  == message
  const char* state_;

  enum Code {
    kOk = 0,
    kNotFound = 1,
    kCorruption = 2,
    kNotSupported = 3,
    kInvalidArgument = 4,
    kIOError = 5
  };

  Code code() const {
    return (state_ == NULL) ? kOk : static_cast<Code>(state_[4]);
  }

  const char* Status::CopyState(const char* state) {
    uint32_t size;
    memcpy(&size, state, sizeof(size));
    char* result = new char[size + 5];
    memcpy(result, state, size + 5);
    return result;
  }

这个类对字符串的操作非常精妙,比如上述代码通过memcpy获取message长度信息.

Slice

  • include/leveldb/slice.h

封装数据和其长度,便于直接通过指针操作, 并提供向std::String的转换.

class Slice {
...
private:
  const char* data_;
  size_t size_;
 ...
}

Cache

  • include/leveldb/cache.h
  • utils/cache.cc

overview

Cache一个接口类,提供了有淘汰机制KV的接口,客户代码可以自己定义具体的实现,也可以使用默认的LRUCache,
从下面代码中的注释中可以看出设计思路。

// A Cache is an interface that maps keys to values.  It has internal
// synchronization and may be safely accessed concurrently from
// multiple threads.  It may automatically evict entries to make room
// for new entries.  Values have a specified charge against the cache
// capacity.  For example, a cache where the values are variable
// length strings, may use the length of the string as the charge for
// the string.
//
// A builtin cache implementation with a least-recently-used eviction
// policy is provided.  Clients may use their own implementations if
// they want something more sophisticated (like scan-resistance, a
// custom eviction policy, variable cache sizing, etc.)

// Create a new cache with a fixed size capacity.  This implementation
// of Cache uses a least-recently-used eviction policy.
extern Cache* NewLRUCache(size_t capacity);

class Cache {
 public:
  // Opaque handle to an entry stored in the cache.
  struct Handle { };
  virtual Handle* Insert(const Slice& key, void* value, size_t charge,
                         void (*deleter)(const Slice& key, void* value)) = 0;
  virtual Handle* Lookup(const Slice& key) = 0;
                ... ...

虽然其接口参数有明确,但是数据类型并没有明确而是留给具体实现代码,所以返回类型是

Handle*
struct Handle {};

这就是一个典型的Opaque data type的应用,wikipedia: opaque pointer, wikipedia: opaque data type, stackoverflow: What is an opaque value?

你会发现在cache.h中有一段extern声明,

extern Cache* NewLRUCache(size_t capacity);

在cache.cc中有它的一种实现,

Cache* NewLRUCache(size_t capacity) {
  return new ShardedLRUCache(capacity);
}

通过extern声明(#include "cache.h"), 在链接的时候(链接cache.o)既可以选择cache.cc的默认实现即ShardedLRUCache, 也可以链接自己的实现。

ShardedLRUCache

cache.cc中提供了一个默认的cache实现即ShardedLRUCache, 其组成是LRUCache并基于key进行shard.
LRUCache依赖cache.c中的opaque数据抽象的具体实现LRUHandle和自己实现的一个哈希表HashHandle.
总而言之ShardedLRUCache就是二级hashtable, 其节点就是多个LRUCache.

ShardedLRUCache在bucket分配与key的shard时用一些非常有意思的位操作,代码如下

static const int kNumShardBits = 4;
static const int kNumShards = 1 << kNumShardBits;

LRUCache shard_[kNumShards];

static uint32_t Shard(uint32_t hash) {
  return hash >> (32 - kNumShardBits);
}

kNumShards = 2 ^ kNumShardBits 这个左移代替指数计算好理解,但是shard操作hash >> (32 - kNumShardBits)
这个值得思考,一般会直接余除,但是这样效果会一样吗或者说会均匀分布在kNumShards个bucket中吗?
假设我们考虑4个bit的uint4_t(虽然并没有这样的类型),当kNumShardBits = 1时,bucket数量也就是kNumShards为2,
那么 4 - kNumShardBits = 3,每次Shard的时候右移动3个bit,这时会发现只有bit 3的那个bit右移没有消失(在bit 0),也就是说bit 3的那个bit决定了Shard的value(0 / 1),正好均匀分布在2个bucket上了.
同理对于32bit的uint32_t整型数,其bit分布如下

31 ... (32 - kNumShardBits), (32 - kNumShardBits - 1) ... 0

如果右移32 - kNumShardBits,只有第一部分kNumShardBits个高位的bit有效,那么正好有2 ^ kNumShardBits 种
可能的值,均匀分布在index为0 - (2 ^ kNumShardBits - 1)的bucket上.
一个简单的Shard对效率都这么苛刻(位操作避免除法),由此可见作者对性能的要求.

LRUCache & LRUHandle & HandleTable

LRUCache由两个循环链表和一个HashTable组成(List+Hash的经典实现),一个链表是连接正在被使用的Node,一个链表连接
不再被使用的Node,HashTable就是使用链表解决Hash碰撞,所以每个Node(即LURHandle包含三个pointer和一个ref),作者
使用了经典的链表操作dummy node和二级指针Linus。Hash值的生成实现请见
Hash & Coding哪一章。

Hash & Coding

util/hash.cc util/hash.h
util/coding.cc util/coding.h
hash.cc提供了一个默认的类似murmurhash的hash值计算的实现,coding.cc中提供了32/64整型数和Slice/String的转换.

env & env_posix

util/env.cc include/leveldb/env.h
util/env_posix.cc

env

env中的接口类Env(虚基类)提供了文件操作的抽象,比如目录操作,日志,文件顺序/随机读取,在Option中可以配置Env使用的实现, leveldb提供了默认的posix标准的实现(具体见下一节).
SequentialFile/RandomAccessFile封装了文件顺序/随机Read和Skip,WritableFile封装了文件的Append/Close/Flush/Sync
操作,Loger则封装了类似变长参数的logv接口(类似vprintf).

env_posix

env_posix是leveldb对Env接口类提供的默认implementation.
Limiter类通过基于RAII的Scope互斥锁和原子操作提供线程安全的计数操作,避免资源过度消耗,比如fd, mmap file数量.
PosixSequentialFile是SequentialFile的子类实现了其Read和Seek接口, 本质就是对fread和seek的wrapper.
PosixRandomAccessFile是RandomAccessFile的子类, 实际是pread() based random-access, 同时包含了Limiter, 不知道为什么Random Accesss为什么需要Limiter.
PosixMmapReadableFile是MmapReadableFile的子类, 实际是mmap() based random-access.

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,590评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 86,808评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,151评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,779评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,773评论 5 367
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,656评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,022评论 3 398
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,678评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,038评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,659评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,756评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,411评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,005评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,973评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,203评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,053评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,495评论 2 343

推荐阅读更多精彩内容