一、HBase的映射表
1. 索引定义
HBase是一个稀疏的、多维度的、排序的映射表。和传统数据库一样,HBase也通过表来组织数据,但是其索引由四个元素定义:行键、列族、列限定符(列)和时间戳
表中的每一个值都是未经解释的字符串,即Bytes数组。每个行有唯一行键(Rowkey)和任意多个列。
2. 列族
列族是HBase的一个核心概念,列族是HBase存储的基本单元。其特性是:
(1) 支持动态扩展——可以增减。而传统的关系数据库定义好以后就不能修改了。
(2) 数据更新时会保留旧版本——这是由于其底层的HDFS的特性决定的。之前讲过HDFS只允许写入数据但不允许修改,所以HBase也只能追加新数据并附上时间戳以说明版本
HBase的数据的组织规划是基于大数据“不担心存储空间不够”的思想设计的,HBase有很多数据是冗余存储的。通过牺牲存储空间来追求更高的分析效率
3. 列和单元格
列限定符也简称列。和列族一样,列也可以动态地增减。
单元格是具体存储数据的地方。通过行和列可以唯一确定单元格。单元格存储的数据都是未经解释的字符串。
4. 时间戳
某个数据所在的单元格会保存这个数据的历史版本,不同版本的数据会通过时间戳来区分。如下图表的右下角的单元格保存了ts1和ts2两个版本的数据
5. 数据坐标
传统数据库定位是二维的,即知道行和列就能唯一确定一个数据。
如果把这四个维度视为一个键,则HBase也是一种键值数据库。(但通常称HBase是一种列族数据库)
二、HBase的数据存储视图
1. 概念视图
例如下图,展示了行键为"com.cnn.www"的一组数据。这组数据有两个列族 “contents” 和 “anchor”。列限定符是直接写在格子内的,在 “:” 与 “=” 之间, “html” 、 “cnnsi.com” 和 “my.look.ca” 。注意某个时间戳后并不是所有列族里都有内容,因为这个时刻可能只有某些内容更新了,所以表格看起来很稀疏,这也就是前面说HBase是一种“稀疏映射表”的原因
2. 物理视图
虽然从概念视图看起来HBase是稀疏表,但物理实现显然不会这么浪费存储空间。为有效利用空间,HBase在底层以列族为单位进行存储。可以简单的理解为根据列族把整张表拆成一个个子表,如下图所示三、行式存储vs列式存储
传统关系数据库是行式存储,HBase是典型的列式存储存储方式 | 优点 | 缺点 |
---|---|---|
行式存储 | 每插入一行都是一条完整的记录 | 要分析某一列就要扫描所有的行 |
列式存储 | 数据压缩率高,便于分析 | 每个列族的行并不包含所有信息 |