Hbase读写原理

Hbase的逻辑结构

image.png

Hbase物理存储结构

image.png

不同列族分别存在不同的文件夹里。

数据模型

与MySQL比较

  • MySQL: DB->Table->列->数据
  • Hbase: NameSpace->Region(一个表可能对应多个region)->列族->数据(列+value),列也算是数据。

首先Hbase是依赖于HDFS和zookeeper的。
Zookeeper分担了Hmaster的一部分功能,客户端进行DML语句的时候,都是先跟ZK交互。
RegionServer管理了很多的Region(表),RegionServer里面的WAL(HLog)是预写入日志,功能是防止内存中的数据没有来的及落盘时丢失。在Region里面管理的Store管理的是列族,Store里面有Mem Store(内存),Flush之后,删除内存中的数据,同时写入文件StoreFile Hfile,Hfile 其实是在DataNode里面的。


image.png

写数据流程

Hbase的读比写慢。
Hbase命名空间下有一张元数据表meta表和namespace表。meta表里面保存了要操作的表所在的位置等元数据。
(1)首先客户端向zk请求元数据表所在的RegionServer,zk返回给客户端meta表所在的regionServer。
(2)然后客户端再去对应的RegionServer查找meta表,找到真正要操作的表所在的regionServer,同时把meta表的信息缓存下来,加快后续的查询。
(3)然后客户端再向目标表所在的RegionServer发送put请求。先把数据写到Hlog里面,再写到内存MemStore,数据会在内存排序,然后向客户端发送ack,到这里对于客户端来说写数据已经结束了。再等到MemStore的刷写时机后,将数据刷写到Hfile.


写数据流程

注:meta表所在的位置信息保存在zk的meta-region-server节点上,客户端首先就是在这个节点上差询meta表所在的RegionServer。meta表里面的信息就是表与其对应的RegionServer的信息


meta表里的数据:stu表存在hadoop102里面

这个stu表可能不止一条,因为stu表可能数据量大了之后根据RowKey进行了切分,并且可能会在不同的机器上。


meta表中的目标表的信息

Hbase客户端写数据的源码的过程,(1)也要先获取lock(JUC的锁)(2)更新时间戳(服务端的时间)(3)构建WAL(还没有写到HDFS)(4)操作追加到WAL日志里面,不要同步(5)写到内存里面(6)释放锁(7)同步WAL到HDFS(8)如果WAL同步失败了,置doRollBackMemStore为true,回滚,从内存里删除keys

Flush流程

image.png

不同的列族是在不同的文件夹。
MemStore刷写时机:

设置参数:
image.png

全局的MemStore的容量,默认是堆内存的40%。这个容量值会触发flush操作,所有的MemStore都要刷写,flush操作会阻塞读写操作。
会刷写并阻塞到到MemStore大小降到它的最大容量的95%


image.png

内存中的文件在自动刷写之前能够存活的最长时间,默认1h,按最后一次操作算。过了1h还没有到容量,则自动刷写。
image.png

设置单个Region的MemStore的容量,如果超过这单个Region就会刷写,默认是128M.
image.png

WAL日志的刷写时机:
可以设置日志的大小和数量,当达到一定数量,刷写到HDFS

Hbase读流程

(1)从zk找meta表所在的RegionServer
(2)从上述RegionServer里的meta表里找目标表所在的RegionServer,同时把meta表缓存,加速后面的查询。
(3)向目标表所在的RegionServer发送get请求。可以从block Cache,MemStore还有StoreFile里面查,具体从哪查根据时间戳,查时间戳大的,具体就都查然后merge取最新。
RegionServer里面有block Cache可以缓存磁盘的数据,加速查询。如果block Cache里面有,就将缓存和MemStore的数据merge然后取最新时间戳,没有就是把磁盘读的和MemStore里面的合并。所以hbase大多数读要走磁盘,所以读很慢。

StoreFile合并Compaction

每次刷写会生成新的Hfile,Hfile很小并且数量多的时候会影响查询的速度。所以要进行合并。合并分为minor Compaction和major Compaction


image.png

minor Compaction将临近的若干较小的Hfile合并成一个较大的Hfile,不会清理过期和删除的数据,major Compaction会将一个Store里面的所有Hfile合并成一个大的Hfile,并且会清理掉过期和删除的数据。


image.png

compaction操作需要rewrite,非常消耗资源,一般在业务低峰期手动执行。

读写扩展

数据的读写可以不依赖Hmaster,只需要指定zookeeper,但是Hmaster负责region调度的元数据
但是DDL语言是要有Hmaster的

什么时候会触发数据的删除

Flush和major Compact
(1)flush在同一个内存中清除过期或删除(删除标记也是一行数据)的数据,但是如果数据不同的版本分布在不同的memStroe,就不能清除。删除的标记在flush之后不会被删,但在后面的major compaction会把删除标记删除掉。
(2)major compaction 会清除过期或删除的数据。

Region Split

默认情况下,每个Table起初只有一个Region,随着数据的不断写入,Region会自动拆分,两个子Region开始都会在一个Regionserver里面,但是出于负载均衡的考虑,Hmaster有可能会将某个Region传给其他的RegionServer。
Split的时机:
(1)当一个Region中的某个Store下的StoreFile的总大小查过某个值,由参数hbase.hregion.max.filesize设定(默认10g),该Region就会按照RowKey进行拆分。
(2)在新版本中这个值是Min(R^2*"hbase.hregion.memStore.flush.size(128M)","hbase.hregion.max.filesize"),R是当前RegionServer中属于该Table的Region个数。分region是按照RowKey切分的。这会导致数据倾斜,就是因为切分的阈值在变化,导致切分之后的region数据量不均匀,导致热点的问题。所以在建表的时候要做预分区,就是用RowKey规划好多少个region,不让hbase自己的切分逻辑切分。
官方建议只用一个列族,防止不同的列族之间数据不均匀,单一列族数据量增多,导致全局的flush,数据量小的列族也要flush,这样会形成很多小的storeFile。

Hbase API

delete操作:
(1)设置RowKey:打的删除标记是deleteFamily,删除多个版本
(2)设置RowKey+Family:打的标记是deleteFamily,删除多个版本
(3)设置RowKey+family+column:有addColumn()和addColumns().addColumn是删除最新的版本或者删除指定时间戳的版本,删除标记是delete标记。addColumns是删除所有的版本或者删除指定时间戳或之前的版本,删除标记是deleteColumn
Delete的操作其实也是put操作,put的是删除的标记。

Hbase优化

高可用

在Hbase中HMaster负责监控HRegionServer的生命周期,均衡RegionServer的负载,如果HMaster挂掉了,那个整个Hbase集群将处于不健康的状态,并且此时的工作状态不会维持太久。所以Hbase支持对HMaster的高可用配置。
在Hbase的conf目录下新建backup-masters文件,vim加入备份Master,比如slave01,slave02.在把文件分发到各个slave里,然后再启动hbase 就能实现HMaster的高可用了。

预分区

每一个region维护着StartRow和EndRow,如果加入的数据符合某个region维护的RowKey范围,则该数据交给这个region维护。那么依照这个原则,我们可以将数据所要投放的分区提前大致的规划好,以提高Hbase性能。
(1)手动设定预分区

create 'staff','info','other',SPLITS =>['1000','2000','3000','4000']

手动设置RowKey分了5个region


手动分区

(2)生成16进制序列预分区

create 'staff1','info','other',{NUMREGIONS=>15,SPLITALGO=>'HexStringSplit'}
image.png

(3)按照文件中设置的规则预分区
创建split.txt

aaaa
bbbb
cccc
dddd

然后执行

create 'staff2','info','other',SPLITS_FILE=>'splits.txt'

这里如果文件里面给的分区键不是按照顺序的,hbase会先帮我们把键排序,然后按照键来分区。
(4)使用JavaAPI预分区
admin的创建表的方法有多个重载,可以只传表的描述,也可以加入分区的信息。admin.createTable
规划分区要考虑未来数据量和机器的规模。虽然提前做了分区,但是最后如果分区大于了10G,还是会触发split。假设一台机器有100G磁盘,那么预分区尽量大于10个,这样就能避免预分区之后又触发了大于10G的split。

RowKey的设计

(1)希望数据能够尽量均匀的分配在多个分区里面(散列性)。
(2)唯一性
(3)长度原则(生产环境70到100位)
常见的设计方案:
(1)生产随机数、hash、散列值
(2)字符串反转
(3)字符串拼接

RowKey设计案例

电信项目:
一次通话的记录:13112341233->18998768771 2018-12-12 12:12:21 568
假设分300个区
分区键怎么设计:
(299个键)
000|
001|
...
298|
RowKey的前面一般会拼上000_,001_,...,298_
这样做的好处是,根据前三位就能知道哪个分区。
(1)我们希望手机号尽量分布在不同的分区,但是相同的手机号数据集中在同一个分区,这样方便查询某个用户的通话信息。000_13112341233
(2)因为每个人通话的需求不同,也希望把同一个人的通话记录也分布在不同的分区里面。000_13112341233_2019-12-12
哈希取余:[(13112341234^201912).hash]%299
假设要查询某用户2019年2月的通话记录,可以用13112341234201902做startRowkey,13112341234201903做endRowKey

内存优化

image.png

Hbase实战

微博。
1、需求
(1)微博内容的浏览
(2)用户社交:关注用户,取关用户
(3)拉取关注人的微博用户
2、设计表
(1)微博内容表Content
行键:用户id+时间戳
(2)用户关系表
因为正常情况一个用户的粉丝和关注都不多,可以用一行存储关注和粉丝的情况。
行键:用户id
(3)初始化页面的表(显示关注的人的最近三条微博)


image.png
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,324评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,303评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,192评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,555评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,569评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,566评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,927评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,583评论 0 257
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,827评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,590评论 2 320
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,669评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,365评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,941评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,928评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,159评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,880评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,399评论 2 342