Hbase的架构设计和存储

Hbase概念:高可靠、高性能、面向列、可伸缩的分布式存储系统,可以存储海量数据并对海量数据进行检索。利用HBase 技术可在廉价PC 上搭建起大规模结构化存储集群。HBase使用HDFS 作为底层文件存储系统,在其上可以运行MapReduce 批量处理数据,使用ZooKeeper 作为协同服务组件。

HBase 的特性:HBase 还是一种非关系型数据库,即NoSQL 数据库。                                          1.容量巨大                                                                                                                                  HBase 的单表可以有百亿行、百万列,数据矩阵横向和纵向两个维度所支持的数据量级都非常具  有弹性。                                                                                                                                              2. 面向列                                                                                                                                    HBase 是面向列的存储和权限控制,并支持列独立检索。                                                              3. 扩展性                                                                                                                                  HBase 底层文件存储依赖HDFS,从“基因”上决定了其具备可扩展性。HBase 的Region 和RegionServer 的概念对应的数据可以分区,分区后数据可以位于不同的机器上,所以在HBase 核心架构层面也具备可扩展性。HBase 的扩展性是热扩展,在不停止现有服务的前提下,可以随时添加或者减少节点。                                                                                                                         4. 高可靠性                                                                                                                                HBase 提供WAL 和Replication 机制。前者保证了数据写入时不会因集群异常而导致写入数据的丢失;后者保证了在集群出现严重问题时,数据不会发生丢失或者损坏。而且HBase 底层使用HDFS,HDFS 本身的副本机制很大程度上保证了HBase 的高可靠性。同时,协调服务的ZooKeeper 组件具备高可用性和高可靠性。                                                                                    5. 高性能                                                                                                                                         底层的LSM 数据结构和Rowkey 有序排列等架构上的独特设计,使得HBase 具备非常高的写入性能。Region 切分、主键索引和缓存机制使得HBase 在海量数据下具备一定的随机读取性能,该性能针对Rowkey 的查询能够达到毫秒级别。同时,HBase 对于高并发的场景也具备很好的适应能力。

Hbase与Hadoop/HDFS:                                                                                                      HBase 使用HDFS 作为底层存储系统。HBase 在 HDFS 之上通过更加复杂的“数据结构和算法”提供了高并发实时随机写和高并发实时点读及扫描的特性,实现了高效的随机读写功能。如LSM(内存+顺序写磁盘)的方式。

Hbase与传统数据库:

关系型数据库                                     Hbase

支持向上扩展(服务器升级)            支持向外扩展 (添加新的服务器)

使用SQL查询                                     使用API和MapReduce访问数据

面向行                                                面向列(为聚集存储设计更好的压缩和解压算法)

适合结构化数据                                  适合结构化和非结构化数据

当有海量数据需要处理时,可以选择Hbase

Hbase在进行JOIN和多表合并时查询性能不好。


Hbase架构设计


Hbase架构图

客户端Client

整个集群的访问入口 ,使用HBase的RPC机制与HMaster和HRegionServer进行通信。对于管理类操作,Client 与HMaster 进行RPC 通信;对于数据读写类操作,Client 与RegionServer 进行RPC 交互。包含访问HBase的接口,并维护cache来加强对HBase的访问。

协调服务组件ZooKeeper

ZooKeeper Quorum(队列)负责管理HBase 中多HMaster 的选举、服务器之间状态同步等。HBase 中ZooKeeper 实例存储HBase 元数据信息、实时监控RegionServer、存储所有Region 的寻址入口.保证任何时候集群中只有一个HMaster。

主节点HMaster

HMaster没有单节点问题,Hbase中可以启动多个HMaster,通过Zookeeper的Master Election 机制保证总有一个Master在运行,主要负责Table和Region的管理工作。管理用户对表的增删查改操作。管理HRegionServer的负载均衡,调整Region分布。Region Split之后,负责新Region的分布。在HRegionServer停机后,负责失效HRegioinServer上Region迁移工作。

Region 节点HRegionServer

HRegionServer 主要负责响应用户I/O 请求,向HDFS 文件系统中读写数据。


HBase 存储


存储单元Cell


HStore 存储是HBase 存储的核心, 由两部分组成:MemStore 和StoreFile。MemStore 是Sorted Memory Buffer,用户写入的数据首先会放入MemStore 中,当MemStore 满了以后会缓冲(flush)成一个StoreFile(底层实现是HFile,只有当storeFile满了之后才会将数据存储到HFile),当StoreFile 文件数量增长到一定阈值,会触发Compact 操作,将多个StoreFiles 合并成一个StoreFile,在合并过程中会进行版本合并和数据删除,因此可以看出HBase 其实只有增加数据,所有的更新和删除操作都是在后续的Compact 过程中进行的,这使得用户的写操作只要进入内存中就可以立即返回,保证了HBase I/O 的高性能。StoreFiles 在触发Compact 操作后,会逐步形成越来越大的StoreFile,当单个StoreFile大小超过一定阈值后,会触发Split 操作,同时把当前Region 分裂成2 个Region,父Region会下线,新分裂的2 个子Region 会被HMaster 分配到相应的HRegionServer 上,使得原先1个Region 的压力得以分流到2 个Region 上。每个Region除了包含多个store外,还包含一个HLOG(预写式日志(WAL),HBase在写动作完成之前先写入到WAL,这样如果内存中的数据还没有写入到硬盘上就发生了崩溃,可以根基HLOG进行恢复。


最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,294评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,780评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,001评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,593评论 1 289
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,687评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,679评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,667评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,426评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,872评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,180评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,346评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,019评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,658评论 3 323
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,268评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,495评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,275评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,207评论 2 352

推荐阅读更多精彩内容