read Bigtable paper

本来想动动手，然而Bigtable不开源-->_<--，那就把读论文的点写上来吧。网上这类文章挺多了，我也没有get到什么别人没get到的东西。纯记录的一篇无聊的文章。

Bigtable，谷歌内部使用的一个分布式存储系统，设计之初将其用于存储非常大规模的数据(petabytes级)。经过多年的实践，为谷歌的很多产品提供了灵活且高性能的数据存储解决方案。

Data Model

作为一个稀疏的(sparse)、持久化存储的分布式多维排序map，通过row keys、column keys、timestamp进行索引，数据值都是未经解析过的字节数组。
(row: string, column: string, time: int64) ——> string

Bigtable_data_model.png

rows: 每一个行被称为tablet，是数据分布和负载均衡的基本单位。Bigtable基于row key(行键)进行排序，拥有较好的位置相关性，利于数据查询。
column families: 几个column keys组成一个称为column familes的集合，是访问控制的最小单元，每一个column family通常存放着相同类型的数据。访问控制、内存和磁盘的使用统计等都通过column-family进行。
timestamp: 每个数据项可以包含不同版本的数据，通过timestamp进行索引。用户也可以自己生成timestamp，但需保持其唯一性，避免数据冲突。不同版本的数据按timestamp降序排序，最新版本排在最前面。（column-family有两个用户可设定的参数，可设定为自动废弃版本回收或指定保存版本的数量。）

注: tablet和SSTable的区别 —— tablet是分布式调度和存储的最小单元，是一个逻辑概念；SSTable是Bigtable中数据在磁盘的存储格式，tablet持久化到GFS文件即成为SSTable。

API

啊又不能用Bigtable，说这个有什么意思，学习下其他的就行啦。

Infrastructure

Bigtable构建于其他几个Google组件之上。
GFS: 存储日志和数据文件。
SSTable: 数据文件的存储格式。
Chubby: 分布式锁服务。

Implementation

系统实现的三个主要组件为：链接到用户程序的库，一个master服务器，很多tablet服务器。
master: 为tablets服务器分配tablets，均衡负载，监测tablets服务器的增减，回收GFS中的垃圾文件，处理数据模式的变化。
tablet servers: 每个tablet server管理一个tablets集，处理所存储tablets的读写请求，若tablets过大则进行分割。tablet servers可以根据工作负载进行动态地增减。
注: Bigtable客户端不依赖于master获取tablet位置信息，可以直接和tablet服务器进行读写通信。

tablet位置

使用一个类似于B+树的三层结构进行存储。
chubby file: 存有root tablet的位置信息。
root tablet: 存放一个特殊的元数据表, 表里的每个metadata tablet存放着的一个用户tablets数据集合的位置。
metadata tablets: 表里的每个metadata tablet存放一个用户tablets数据集合的位置信息。

Bigtable_tablet_location_hierarchy.png

tablet分配

master会记录当前活跃的tablets服务器，哪些tablets被分配到了哪些服务器，未分配的tablets。使用Chubby跟踪tablet服务器，master会监控一个server directory，tablet服务器启动时会在这个目录里创建属于自己的唯一文件。

compactions

minor compaction: memtable大小达到阈值后，就创建另一个新的memtable，旧的那个则被转换为SSTable写入GFS中。
merging compaction: 读取一些memtable和少数SSTables并写入到新的SSTables(避免当minor compaction一直进行时，造成新的SSTables数量过多)。
major compaction: 一个将所有SSTables写入到一个SSTables中的merging compaction，生成的SSTables中不含有删除的信息或已删除的数据。

Refinements

locality groups: 多个column family可以聚集成一个locality group，并对应一个SSTable, 根据相关性可以提高读取效率。

compression: 可以选择是否对SSTables进行压缩：根据用户指定的压缩形式将SSTable blcok在写入磁盘前进行压缩。有些客户端进行两段压缩，拥有很好的性能。

caching for read: tablet servers使用两级缓存以提高读取的性能。

scan cache: 高级缓存，缓存通过SSTables接口向tablet serversh获取的K/Vs。有利于读取经常访问的数据。
blcok cache: 低级缓存，缓存从GFS读取的SSTable blcoks。有利于读取最近所读数据的附近数据。

bloom filters: 允许读取特定的行/列数据，减少对一个locality group的所有SSTables的访问次数。

commit log: 每个tablet server的commit写入到一个log文件中，并将commits进行排序，比为每一个tablet保存一份commit log而拥有更好的性能。每个tablet server都持有两个log写线程分别写入各自对应的log文件，每次只有一个处于活跃，若正在写的线程效率很慢则切换至另一个线程。

tablet recovery: tablet从一台服务器上迁移到另一台时，源服务器先做一次minor compaction，当从源服务器上删掉数据时，再做一次minor compaction。

inmmutability: SSTables的不变性使得并发读取很高效，并且简化了删除数据的回收，还能更为快速地进行SSTables的分割。memtable是可变的，故通过copy-on-write来达到读写并行。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 218,525评论 6赞 507
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 93,203评论 3赞 395
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 164,862评论 0赞 354
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,728评论 1赞 294
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,743评论 6赞 392
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,590评论 1赞 305
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,330评论 3赞 418
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,244评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,693评论 1赞 314
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,885评论 3赞 336
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 40,001评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,723评论 5赞 346
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,343评论 3赞 330
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,919评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,042评论 1赞 270
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,191评论 3赞 370
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,955评论 2赞 355