HBase是什么
HBase,即Hadoop DataBase,是Hadoop的一个子项目,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,是Google Bigtable的开源实现。
HBase在Hadoop生态中的位置如下 :
- 使用HDFS作为其分布式存储系统,提供了高可靠的底层存储支持
- 使用MapReduce来处理海量数据,提供了高性能的计算能力
- 使用zookeeper提供协同/协调服务,提供了稳定服务和failover机制(故障切换)
列式存储与行式存储
上面说到HBase是基于列的列式数据库,而常用的关系数据库则是行式数据库,此处对两个概念做简单区分。
行式存储是指数据以行为单位进行存储,同一行的数据在存储介质中连续,如Oracle、Mysql、Sql Server
列式存储是指数据以列为单位进行存储,同一列的数据在存储介质中连续,如HBase、HP vertica等分布式数据库
行式存储适合处理OLTP,对实时性要求较高的应用,如ATM系统:
INSERT/UPDATE容易,适合随机数据的增加和删除
适合需要获取行中所有属性的查询操作
当数据量很大时且没有索引时,需要大量IO(如只需要查询两列,但仍然要把每一行都读出来)
建立索引等提高性能的操作花时间、占空间
列式存储适合处理OLAP,实时性要求不高,但数据量大:
- 每一列都可以作为索引进行查询
- 查询时只有涉及的列被读取
- 各列独立存储,可根据每一列的实际情况进行压缩,节省存储空间
- 查询时对各个列并行查询,再进行组合(查询示意图如下)
- INSERT/UPDATE比较麻烦,不适合需要频繁更新的应用
HBase适用场景
首先在搞HBase之前我们要对其建立感性认识,其适用场景如下:
并发、简单、随机查询。
(注:HBase不太擅长复杂join查询,但可以通过二级索引即全局索引的方式来优化性能,后续博文会进行讲解)半结构化、非结构化数据存储。
一般我们从数仓中离线统计分析海量数据,将得到的结果插入HBase中用于实时查询。
HBase表结构
HBase中一个可能的表格如下,包括:
-
命名空间
:命名空间是对表的逻辑分组,不同的命名空间类似于关系型数据库中的不同的Database数据库
。利用命名空间,在多租户场景下可做到更好的资源和数据隔离。 -
表
:对应于关系型数据库中的一张张表,HBase以“表”为单位组织数据,表由多行组成。 -
行
:行由一个RowKey和多个列族组成,一个行有一个RowKey,用来唯一标示。 -
行键(RowKey)
:类似关系表中的主键
,是用来表示唯一一行记录的主键,按字典序排列。 -
列族(column family)
:每一行由若干列族组成,每个列族下可包含多个列, 列族是列共性的一些体现。注意:物理上,同一列族的数据存储在一起的, 不同的列族存储在不同文件中 。 引入这个概念是因为HBase查询中,很多情况下不需要一行中所有的列。例如:BaseInfo、AddressInfo -
列(qualifier)
: 类似关系表中的列 ,例如:Gender、Age、City -
单元格(Cell)
:单元格由RowKey、列族、列限定符唯一定位,单元格之中存放一个值(Value)和一个版本号。例如:20 -
时间戳(TimeStamp)
:数据修改时加入的时间戳,单元格内不同版本的值按时间倒序排列,最新的数据排在最前面,下图中作为单独一列,实际上这个值是存放在单元格中的,见下面的例子
HBase的表数据内部用Map实现,如上图用字典/json
形式可表示如下:
{"Tom":{
"BasicInfo":{
"Gender":{"T1":"Male"},
"Age":{"T1":"20"}
},
"AddressInfo":{
"Province":{"T1":"ShanDong"},
"City":{"T1":"JiNan"}
}
},
"Amy":{
"BasicInfo":{
"Gender":{"T2":"Female"},
"Age":{"T2":"18"}
},
"AddressInfo":{
"Province":{"T2":"ShanDong"},
"City":{"T2":"ZiBo"}
}
}
}
假设将Tom的Age改为21,在HBase中会保留数据的若干版本,由时间戳区分,可把表格看成如下形式:
用字典/JSON形式表示如下,可以看到实际上只在第四行发生了改变,即在Age中增加了一个键值对 :
{"Tom":{
"BasicInfo":{
"Gender":{"T1":"Male"},
"Age":{"T1":"20", "T3":"21"}
},
"AddressInfo":{
"Province":{"T1":"ShanDong"},
"City":{"T1":"JiNan"}
}
},
"Amy":{
"BasicInfo":{
"Gender":{"T2":"Female"},
"Age":{"T2":"18"}
},
"AddressInfo":{
"Province":{"T2":"ShanDong"},
"City":{"T2":"ZiBo"}
}
}
}
所以实际上,上述表在HBase中的逻辑表示如下,一个单元格包含数据的若干个版本,是【时间戳:值】的列表 :
综上,在HBase中,一个表就是一个高维、稀疏、有序的Map表。
HBase表特点
- 数据规模大,单表可容纳数十亿行,上百万列。
- 无模式,不像关系型数据库有严格的Scheme,每行可以有任意多的列,列可以动态增加,不同行可以有不同的列,列的类型没有限制。
- 稀疏,值为空的列不占存储空间,表可以非常稀疏,但实际存储时,能进行压缩。
- 面向列族,面向列族的存储和权限控制,支持列族独立查询。
- 数据多版本,利用时间戳来标识版本
- 数据无类型,所有数据以字节数据形式存储
参考链接
: