HBase简介与表结构

HBase是什么

HBase,即Hadoop DataBase,是Hadoop的一个子项目,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,是Google Bigtable的开源实现。

HBase在Hadoop生态中的位置如下 :

  • 使用HDFS作为其分布式存储系统,提供了高可靠的底层存储支持
  • 使用MapReduce来处理海量数据,提供了高性能的计算能力
  • 使用zookeeper提供协同/协调服务,提供了稳定服务和failover机制(故障切换)

列式存储与行式存储

上面说到HBase是基于列的列式数据库,而常用的关系数据库则是行式数据库,此处对两个概念做简单区分。

行式存储是指数据以行为单位进行存储,同一行的数据在存储介质中连续,如Oracle、Mysql、Sql Server

列式存储是指数据以列为单位进行存储,同一列的数据在存储介质中连续,如HBase、HP vertica等分布式数据库

image

行式存储适合处理OLTP,对实时性要求较高的应用,如ATM系统:

  • INSERT/UPDATE容易,适合随机数据的增加和删除

  • 适合需要获取行中所有属性的查询操作

  • 数据量很大时且没有索引时,需要大量IO(如只需要查询两列,但仍然要把每一行都读出来)

  • 建立索引等提高性能的操作花时间、占空间

列式存储适合处理OLAP,实时性要求不高,但数据量大

  • 每一列都可以作为索引进行查询
  • 查询时只有涉及的列被读取
  • 各列独立存储,可根据每一列的实际情况进行压缩,节省存储空间
  • 查询时对各个列并行查询,再进行组合(查询示意图如下)
  • INSERT/UPDATE比较麻烦,不适合需要频繁更新的应用

HBase适用场景

首先在搞HBase之前我们要对其建立感性认识,其适用场景如下:

  • 并发、简单、随机查询。
    (注:HBase不太擅长复杂join查询,但可以通过二级索引即全局索引的方式来优化性能,后续博文会进行讲解)

  • 半结构化、非结构化数据存储。

一般我们从数仓中离线统计分析海量数据,将得到的结果插入HBase中用于实时查询。

HBase表结构

HBase中一个可能的表格如下,包括:

  • 命名空间 :命名空间是对表的逻辑分组,不同的命名空间类似于关系型数据库中的不同的Database数据库。利用命名空间,在多租户场景下可做到更好的资源和数据隔离。
  • :对应于关系型数据库中的一张张表,HBase以“表”为单位组织数据,表由多行组成。
  • :行由一个RowKey和多个列族组成,一个行有一个RowKey,用来唯一标示。
  • 行键(RowKey):类似关系表中的主键,是用来表示唯一一行记录的主键,按字典序排列。
  • 列族(column family):每一行由若干列族组成,每个列族下可包含多个列, 列族是列共性的一些体现。注意:物理上,同一列族的数据存储在一起的, 不同的列族存储在不同文件中 。 引入这个概念是因为HBase查询中,很多情况下不需要一行中所有的列。例如:BaseInfo、AddressInfo
  • 列(qualifier): 类似关系表中的列 ,例如:Gender、Age、City
  • 单元格(Cell):单元格由RowKey、列族、列限定符唯一定位,单元格之中存放一个值(Value)和一个版本号。例如:20
  • 时间戳(TimeStamp):数据修改时加入的时间戳,单元格内不同版本的值按时间倒序排列,最新的数据排在最前面,下图中作为单独一列,实际上这个值是存放在单元格中的,见下面的例子
image

HBase的表数据内部用Map实现,如上图用字典/json形式可表示如下:

{"Tom":{
    "BasicInfo":{
        "Gender":{"T1":"Male"}, 
        "Age":{"T1":"20"}
    },
    "AddressInfo":{
        "Province":{"T1":"ShanDong"},
        "City":{"T1":"JiNan"}
    }
 },
 "Amy":{
     "BasicInfo":{
         "Gender":{"T2":"Female"}, 
         "Age":{"T2":"18"}
     },
     "AddressInfo":{
         "Province":{"T2":"ShanDong"},
         "City":{"T2":"ZiBo"}
     }
 }
}

假设将Tom的Age改为21,在HBase中会保留数据的若干版本,由时间戳区分,可把表格看成如下形式:

image

用字典/JSON形式表示如下,可以看到实际上只在第四行发生了改变,即在Age中增加了一个键值对 :

{"Tom":{
    "BasicInfo":{
        "Gender":{"T1":"Male"}, 
        "Age":{"T1":"20", "T3":"21"}
    },
    "AddressInfo":{
        "Province":{"T1":"ShanDong"},
        "City":{"T1":"JiNan"}
    }
 },
 "Amy":{
     "BasicInfo":{
         "Gender":{"T2":"Female"}, 
         "Age":{"T2":"18"}
     },
     "AddressInfo":{
         "Province":{"T2":"ShanDong"},
         "City":{"T2":"ZiBo"}
     }
 }
}

所以实际上,上述表在HBase中的逻辑表示如下,一个单元格包含数据的若干个版本,是【时间戳:值】的列表 :

image

综上,在HBase中,一个表就是一个高维、稀疏、有序的Map表。

HBase表特点

  • 数据规模大,单表可容纳数十亿行,上百万列。
  • 无模式,不像关系型数据库有严格的Scheme,每行可以有任意多的列,列可以动态增加,不同行可以有不同的列,列的类型没有限制。
  • 稀疏,值为空的列不占存储空间,表可以非常稀疏,但实际存储时,能进行压缩。
  • 面向列族,面向列族的存储和权限控制,支持列族独立查询。
  • 数据多版本,利用时间戳来标识版本
  • 数据无类型,所有数据以字节数据形式存储

参考链接

Spark实战—— (2.1) HBase表格结构、物理存储结构与系统架构

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,658评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,482评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,213评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,395评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,487评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,523评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,525评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,300评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,753评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,048评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,223评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,905评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,541评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,168评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,417评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,094评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,088评论 2 352