前段时间看了下 hbase 表结构,意识到想要理解好 hbase,理解它的物理存储至关重要,所以本文主要就介绍下 hbase 的物理模型。
先看下下图
HRegionServev 负责管理数据的 CRUD,client 的请求都是直接到 HRegionServer,然后 HRegionServer 负责协调处理,每个物理节点一般只有一个 HRegionServer,HRegionServer 包含多个 HRegion,HRegion 存放真正的数据。HRegionServer 上有HLog,每一笔 CRUD 操作都会记录在上面。
在讨论什么是 HRegion 之前,我们先思考一个问题,具体某个 HRegion 是由哪个 HRegionServer管理,是由什么决定的呢?
由 HMaster 决定,它会考虑负载情况,决定某个新增的 HRegion 由哪个 HregionServer 管理。
什么是 HRegion?
默认情况下每个新建的表都有一个 HRegion。HRegion 是 Store 组成,专门用来存储数据的,其中不同列族的数据会存储在不同的 Store 里。store 有两部分组成,一是 storefile,相当于对 hdfs 的datanode上的二进制存储做了一个包装,让数据可以以 key value 形式存储。二是 memstore 内存存储,数据写入时候,会先把数据写入到 memstore,等 memstore 的存储到了一个阈值,会 flush 到 storefile 上。读取数据的时候也会先去 memstore 读取,如果 memstore 里没有,再去 storefile 上读取。随着数据的不断产生,会有新的 HRegion 诞生,由 HMaster 决定哪个 HRegionServer 来管理它,而 HLog 每个 HRegionServer 上只会有一个。
Hbase 的数据删除怎么做的?
删除就是写入一个版本更新的数据,并加上一个标识,随着写入,storefile 的数量会变多,当 storefile 的数量到达一个值时,会合并storefile,并在过程中删掉无用的数据。
meta 表和 root 表存在意义?
meta 表会维护行健范围到 HRegionServer 的映射关系,这样当一个请求来了,能根据行健,快速找到要去哪个 HRegionServer 请求。meta表本质上也是一张表,meta 表在哪个HRegionServer 上怎么知道呢?一种做法是直接放到 zk 上,但是一个问题是如果数据太大,meta 表可能也要分不同 region,那怎么办呢?meta 表的数据到 HRegionServer 的映射关系我们也用一张表存储一下,就是 root 表,root 表存放在 zk 上。如果 root 表需要分不同 region 呢?未考虑这种情况,不太可能出现。