原创文章，转载请注明原作地址：http://www.jianshu.com/p/0f9578df7fbc

一. 架构

1. 数据模型

1.1 基础概念

表(table)：列式存储，支持高表&宽表(上亿行，上百万列)
行(row)：每一行由唯一的行键确定
列族(columnFamily)：每一行包含一个或多个列族，是列的集合
列(column)：列式存储，列是最基本单位，可能有多个版本的值
时间戳(Timestamp)：列的不同版本之间用时间戳区分
单元格(cell)：列的每一个版本是一个单元格，是存储的基本单位

HBase最基本的单位是列（column），一列或者多列形成一行（row），若干行数据组成了一张表（table）。听起来是一个非常普通的列式存储数据库，但是，它和传统数据库有很大的不同。

1.2 与传统数据库的区别

a. HBase的每一行由唯一的行键确定

在某种程度上，行键相当于传统数据库的primary key，区别在于，primary key是可选的，而HBase的每张表都必然会有行键。除了行键之外，HBase表不能对列添加索引。HBase是一个<key, value>形式的数据库，行键就是它的key。

b. HBase引入了列族(columnFamily)的概念

HBase是一个列式存储的数据库，因此列的使用是非常灵活的，不必在表定义的时候就定好列名，但是必须在建表的时候定义好列族名字。
一张HBase表存储的列的数量可以是无限的，但是列族的数量最好控制在2-3个（原因在备注中^[1]）
列必须属于某个列族，不同列族之间可以有同名列
列族的作用是，将那些数据量和属性相似的列聚集在一起，以便我们给这些列定义一些共同的存储方式属性(e.g. 数据压缩，保存到读缓存中)

c. HBase的列值可以有多版本

在HBase表中，行键、列族、列名和时间戳才能唯一确定一个值。每个值是一个单元格(cell)，是存储的基本单位。每一行数据的每一列，都可以存储多个值，每个版本的值之间通过时间戳确定，在存储的时候，这些值也按照时间戳逆序排列，保证客户端永远读到最新的数据。但是，每个列族可以存储的最大版本数是确定的，并且是在建表的时候就定义好的。

另外，单元格的时间戳是可以由用户自行指定的，如果不指定，服务器就会将接收到写请求的服务器时间作为单元格的时间戳。通常情况下，最好不要自己指定时间戳，因为客户端总是难以保证，指定的时间戳是按照写顺序递增的。

d. 反范式化

HBase是一个NoSQL(Not-only-SQL)数据库，不提供复杂的查询方式，包括join。另外，相对于MySQL，HBase的可扩展性很好，存储资源要廉价很多。因此，在设计数据库的时候，我们总是倾向于反范式化，以方便后期的数据查询

1.3 数据模型抽象

HBase实际上是按照谷歌的bigtable实现的，而谷歌在bigtable论文的开篇就介绍了bigtable的特点：A Bigtable is a sparse, distributed, persistent multidimensional sorted map。所以HBase在本质上，是一张有序的多维map，数据模型可以抽象成：

<rowKey : columnFamily : qualifier : timestamp, value>

这样的优点是，HBase只存储有值的单元格，对于一张稀疏表来说，可以节省很多存储空间；但是，为每个cell都存储了rowKey, columnFamily, qualifier，因此cf的名字不要太长。

2. 存储模型

存储模型

2.1 存储概览

a. 数据分片存储

在HBase中，一张表的数据会被分成几份，每一份数据为一个region；每个region内存储的key是连续范围内的，不同region存储的key范围不重合；这些region可能被存储在同一台机器上，也可能存储在不同的机器上。HBase作为一个分布式数据库，对数据进行分片，可以提升吞吐量。

b. HLog：Write-Ahead-Log，写操作先写日志

HLog的作用是，当一台regionServer crash了，可以利用HLog来恢复内存中未持久化到硬盘中的数据。需要注意的是，同一台server上的所有region共用一个HLog实例，因为假如每个region拥有一个独立的HLog，服务器会花费很多时间在磁盘寻道上。

c. MemStore：写缓存，每个store拥有独立的写缓存

在HBase中，所有的写操作全部写到内存中，当写缓存（MemStore）写满，再刷写（flush）到磁盘中^[2]，形成一个新的文件。这样做的目的，是为了高速响应那些写请求。

d. HFile：磁盘文件

在存储上，HBase完全依赖HDFS，磁盘操作是直接调用HDFS的API（HDFS在维持data locality这一点上足够智能）。另外，之前提过HBase定义列族的一个原因是为了方便存储，事实上，同一列族的数据会被写到同一文件，因为存储特性本来就是按照列族定义的。HBase的数据在底层文件中时以KeyValue键值对的形式存储的，HBase没有数据类型，HFile中存储的是字节，这些字节按字典序排列。

e. 读缓存：同一server上所有region共用

既然HBase有写缓存，相对应的应该有读缓存。与写缓存不同的是，HBase的读缓存是同一server上的所有region共用的。当HBase读取磁盘上某一条数据时，HBase会将整个HFile block^[3]读到cache中^[4]。因此，当client请求临近的数据时，因为临近数据已经被缓存到内存中，HBase的响应会更快，也就是说，HBase鼓励将那些相似的，会被一起查找的数据存放在一起。另外，当我们在做全表扫描时，为了不刷走读缓存中的热数据，千万记得关闭读缓存的功能。

2.2 行键的索引

a. 行数据查找步骤

hbase:meta表查找，获取数据所在的region id
根据region id，到对应的region server上查找，在server上查找对应记录时，有三种方式
(1) 扫描缓存
(2) 块索引
(3) 布隆过滤器

b. rowKey索引：hbase:meta表

client会首先获取hbase:meta表的位置，再到对应的region server上读取这张表的内容（hbase:meta表其实就是一张HBase表）。读到这张hbase:meta表之后，client会缓存这张表，这张之后的查找就可以复用了。hbase:meta表的内容如下：

| key                                                               | value                                                                               |
| ----------------------------------------------------------------- | ------------------------------------------------------------------------------------|
|                                                                   | info:regioninfo (serialized HRegionInfo instance for this region)                   |
| Region key of the format ([table],[region start key],[region id]) | info:server (server:port of the RegionServer containing this region)                |
|                                                                   | info:serverstartcode (start-time of the RegionServer process containing this region)|

因此，通过查找hbase:meta表，client可以得知对应的数据存储在哪台server的那个region上，接下来就要到对应的server上查找相关数据了。

c. region server上的数据查找

当接收到一个读请求，server会初始化一个scanner查找内存中是否有相关数据；一个scanner查找硬盘文件中是否存储了相关数据。查找硬盘文件是一件相当繁重的体力活，为了加快文件查找，HBase借助了两个工具：块索引和布隆过滤器。

块索引和布隆过滤器

d. rowKey索引：块索引

块索引存储在HFile文件中的末端，当HBase在查找文件中是否保存了目标数据时，首先会将块索引读入内存。因为HFile中的KeyValue字节数据，是按照字典序排列的，而块索引存储了文件中所有块（HFile block）的起始key，因此可以根据块索引迅速定位需要查找的块，只将可能保存了目标数据的块读到内存中，能加快查找速度。

e. rowKey索引：布隆过滤器

虽然块索引帮助减少了需要读到内存中的数据，我们依然需要查找每个文件中的一个块，才能完成磁盘数据查找，而布隆过滤器则可以帮助我们跳过那些显然不包含目标数据的文件。因为布隆过滤器的特点是，能迅速判断一个数据集合中包不包含目标数据，判断结果有两种，不包含和可能包含。如下图所示，布隆过滤器能帮助跳过一些肯定不包含目标数据的文件。

布隆过滤器

和块索引一样，布隆过滤器也被存储在文件末端，会被优先加载到内存中。另外，布隆过滤器分行式和列式两种，列式需要更多的存储空间，因此如果是按行读取数据，没必要使用列式的布隆过滤器。布隆过滤器和块索引的对比如下：

块索引	布隆过滤器
快速定位记录在文件中可能的位置	快速判断文件中是否包含相应记录

2.3 将随机写转化成顺序写

HBase的存储是完全基于HDFS的，而HDFS的特点是不能对磁盘文件进行随机修改。因此，HBase无法对已写入磁盘文件的表记录进行随机修改，但是对于数据库来说，支持对表记录进行随机修改是基本功能。为此，HBase的方法是将随机写的操作转化成顺序写。

首先，随机的写操作转化为文件追加操作，按照时间顺序排列，client读数据时总是优先读到最新的修改。而删除操作则转化为写入一个tombstone标记，标记着早于这个tombstone时间戳的对应行所有记录作废。

显然，因为HBase总是进行文件追加，随着时间积累，文件膨胀很快。major compact的一个作用就是，真正删除所有无效的过时数据。

2.4 HBase Compaction和Region Split

a. HBase Compaction

前面已经提到过，HBase数据写入的时候，总是先写入到写缓存（MemStore）中，当写缓存写满，则flush到磁盘形成一个新的磁盘文件。可以想象的是，随着时间增长，磁盘上这样的小文件会越来越多，HBase查找数据也需要越来越长的时间。为了避免这样的问题，HBase会做compaction，合并HFile文件，减少每次查找数据的磁盘寻道时间。compaction分为major compact和minor compact两种：

Minor compact：将多个小文件简单合并成一个大文件
Major compact：将同一列族的所有文件合并成一个大文件，并且删除过期无效的数据和tombstone标记[5]

b. Region Split

client不断向HBase写入数据，region管理的数据量不断膨胀。当一个region内存储的数据量到达阈值，则会触发HBase的region split操作，将老的region拆分成两个新的子region。拆分的原则是数据量对半分。为了避免region拆分导致的IO瞬时上升，region拆分并不会立刻将拆分重写所有的磁盘文件文件，而是为每个子region创建reference文件，这些文件指向了旧的磁盘文件中对应记录的起始和终止位置。等到子region的compact操作被触发，在重写文件的时候，HBase才会为每个子region生成独立的磁盘文件。

3. 物理模型

物理模型

HBase的架构是一个典型的master-slave模型，HBase的master节点叫HMaster，slave节点就是RegionServer。

3.1 Master的职责

处理集群相关的请求（来自client或者其他server节点）

建表或者表变更的操作
打开或者关闭一个region
metadata元数据的管理

集群监控（依赖Zookeeper）

监控regionServer的状态以及负载均衡等
跟踪hbase:meta表的位置
后备master节点需要监控当前master节点是否活跃

3.2 RegionServer的职责

集群初始化过程中

当一个HBase集群起来之后，HMaster会在对应的regionServer上起一个HRegionServer进程。HRegionServer负责打开对应的region，并创建对应的HRegion实例。当HRegion打开之后，它会为每个表的HColumnFamily创建一个Store实例，ColumnFamily是用户在创建表时定义好的，ColumnFamily在每个region中和Store实例一一对应。每个Store实例包含一个或者多个StoreFile实例，StoreFile是对实际存储数据文件HFile的轻量级封装。每个Store对应一个MemStore。一个HRegionServer共享一个HLog实例。

集群运行过程中

compaction和split是由RegionServer独立判断决定是否执行的，但过程中包含一些必要的和master、ZK的通信
client端发起的读写请求，也直接由对应RegionServer处理（master不处理）[6]，流程如下：
(1) client端向ZK请求hbase:meta表位置，取得表内容
(2) 查询meta表得知数据存在哪台RegionServer上
(3)直接与RegionServer通信，进行读写操作

注：
[1] 同一张表的column family数量不能超过2-3个。因为目前，flush和compaction操作是基于region进行的，当一个column family触发了MemStore flush操作，相邻的column family都会被刷写到磁盘，即使它们MemStore内的数据量还很小。因此，如果同一张表内column family的数量过多，flush和compaction将会带来更多不必要的I/O负载（当然这个问题可以通过，将flush和compaction改成列族之间互不影响来解决）。通常情况下，定义表的时候尽量使用单列族，除非列与列的查询是相对独立的，再考虑使用多个列族，比如client并不会同时请求两个列族的数据。
当同一张内有多个列族时，注意一些列族间的数据量是否一致，假如列族A和列族B的数据量相差悬殊，列族A的大数据量会导致表数据被分片到很多个机器上，此时再对列族B的数据做扫描，效率会很低。

[2] 能触发MemStore flush操作的有三种情形：

当一个MemStore的数据量达到hbase.hregion.memstore.flush.size，同一region的所有MemStore的数据都会被刷写道磁盘
当全部的MemStore的数据量达到hbase.regionserver.global.memstore.upperLimit，同一RegionServer的多个region的MemStore的数据会被刷写到磁盘。按照每region的MemStore大小，从大到小刷写到磁盘，直到总的MemStore大小下降到hbase.regionserver.global.memstore.upperLimit
当region server的WAL的log数量达到hbase.regionserver.max.logs，该server上多个region的MemStore会被刷写到磁盘（按照时间顺序），以降低WAL的大小。

[3] HFile block：HFile块和Hadoop块是两个独立的概念。HFile块的默认大小是64KB，而Hadoop块的默认大小为64MB。另外，如果有需要的话，用户还可以自行定义HFile块大小。一般情况下，如果客户端都是顺序访问表记录，在读缓存的作用下，建议使用较大的HFile块；如果客户端都是随机访问表记录，建议使用较小的HFile块，不过也需要更多的内存来存储块索引（块索引会优先存放在cache中），并且创建过程也会变得更慢，因为我们必须在每个数据块结束的时候刷写压缩流，导致一个FS I/O刷写。

[4] 关于读缓存的更详细资料：http://zh.hortonworks.com/blog/hbase-blockcache-101/

[5] HBase默认每7天对HBase做一轮major compact，在0.96的版本之前，这个周期是1天。

[6] 正因为client读写数据的过程没有master节点的参与，如果master failover了，hbase集群仍然可以稳定运行一段时间，只是像region分裂，RegionServer failover处理等需要master节点参与的工作，无法完成了。

未完待续...

HBase使用总结