Hbase的数据结构及分布式策略实现

Hbase分布式策略

  • 在学习Hbase之前,一定要带着一个问题,为什么Hbase比传统的关系型数据库性能要高很多?
    说到这里就不得不提Hbase的数据结构,简而言之,Hbase维护的是一个Map数据,对于每一条数据,在Hbase上都是一个独立的Map,其中有一个RowKey,然后我们的查询都是基于这个RowKey进行的,在Hbase内部,维护了一个RowKey到具体分片数据的映射,类似于查字典,Hbase Master Server维护了一个字典的目录,这样查询的时候,你只需要提供RowKey,就能知道对应的数据存储的位置。但是关系型数据库,相当于从字典的第一页,查询直到查到数据位置,所以Hbase的时间复杂度理论上是接近O(1),而Mysql等关系型数据库尽管也通过B+树等数据结构做了优化,但是复杂度依然是O(Logn)。
    当然,Hbase的缺点也很明显,无法根据条件进行查询,不支持事物,而且也不支持数据分析(如果是聚合,统计,最好使用ES),所以说,我们在做技术选型的时候,不能一味的追求一些高大上的技术,要牢记一点,技术永远是服务于业务的,要找到合适的技术,而不是高大上的技术。
    Hbase主要的组件有:MasterServer,Zookeeper,Region Server.
    其中:
    MaserService负责表,列创建,维护集群状态
    RegionServer处理查询数据的操作,每个Region存储了Startkey-EndKey数量的数据,因为MasterServer维护了RowKey到Region的映射,因此可以很清楚的知道每一个RowKey存储在哪台RegionServer上。
    那么问题来了,Hbase是如何管理这些映射呢?
    通过下图就可以清晰的了解了,.META.表记录了Row和Region的映射关系,但是由于这个映射关系本身数据量可能很大,因此,又通过-ROOT-表来存储.META.表和Region的映射关系,而-ROOT-表要小得多,因此-ROOT-表是只有一个Region的,在Zookeeper中存储了-ROOT-表的地址


    image.png

    也就是说,一个Client访问HBase操作数据的时候,首先要经过Zookeeper
    查询到-ROOT-的地址,然后,查询.META.表,最后查询RegionServer,进行相应的操作,但是HBase对这些数据做了Cache,所以不需要太担心性能问题。


最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 简介 [HBase]——Hadoop Database的简称,Google BigTable的另一种开源实现方式,...
    高广超阅读 7,020评论 1 27
  • 最近在逐步跟进Hbase的相关工作,由于之前对Hbase并不怎么了解,因此系统地学习了下Hbase,为了加深对Hb...
    飞鸿无痕阅读 50,457评论 19 272
  • 比特科技: 存储、数据库、大数据技术 » HBase原理和设计 http://www.bitstech.net/...
    葡萄喃喃呓语阅读 3,994评论 0 11
  • HBase存储架构图 HBase Master 为Region server分配region 负责Region s...
    kimibob阅读 10,931评论 0 52
  • HBase那些事 @(大数据工程学院)[HBase, Hadoop, 优化, HadoopChen, hbase]...
    分痴阅读 9,417评论 3 17