HBase 集成 Phoenix 构建二级索引实践

Phoenix 在 HBase 生态系统中占据了非常重要的地位,本文主要包括以下几方面内容:

  • Phoenix 介绍

  • CDH HBase 集成 Phoenix

  • 使用 Phoenix 创建 HBase 二级索引

  • Phoenix 索引类型介绍

Phoenix 介绍

Phoenix 是构建在 HBase 之上的高效的 SQL 引擎,同时具备 OLTP 和 OLAP 能力,作为 HBase 生态系统中非常重要的组件,重点的特性包括:

  • 底层存储基于 HBase,并提供一套标准的 JDBC API 作为 HBase SQL 层;

  • 支持标准 SQL,以及完整 ACID 事务特性;

  • 为 HBase 提供了二级索引解决方案;

此外,Phoenix 还和很多其他组件做了集成,比如 Spark、Hive、Flume 等。Phoenix 与 HBase 集成,其最大的特点就是为 HBase 提供了二级索引,后文会重点介绍。下图是 Phoenix 的基本架构:

CDH HBase 集成 Phoenix

版本说明
安装

首先到官网下载适合自己环境的 Parcel 安装包,并发布到 httpd 服务:

[root@hadoop-01 /var/www/html/phoenix/4.14.0]$ ll
total 300524
-rw-r--r-- 1 root root 307722240 Feb  3 19:30 APACHE_PHOENIX-4.14.0-cdh5.11.2.p0.3-el7.parcel
-rw-r--r-- 1 root root       178 Feb  3 19:28 APACHE_PHOENIX-4.14.0-cdh5.11.2.p0.3-el7.parcel.sha512
-rw-r--r-- 1 root root      5081 Feb  3 19:30 manifest.json

然后配置成 CDH 远程 Parcel 存储库 url:

接下来下载,分配,激活完成安装即可。

配置

安装完 Phoenix 后,需要做一些必要配置才能使用 Phoenix,CDH HBase 配置界面配置如下两处:

  1. hbase-site.xml 的 HBase 服务高级配置代码段(安全阀)
  2. hbase-site.xml 的 HBase 客户端高级配置代码段(安全阀)

添加如下参数配置:

<!-- 二级索引支持 -->
<property>  
  <name>hbase.regionserver.wal.codec</name>  
  <value>org.apache.hadoop.hbase.regionserver.wal.IndexedWALEditCodec</value>
</property>
<!-- 命名空间映射开启,Phoenix4.8.0开始支持 -->
<property> 
  <name>phoenix.schema.isNamespaceMappingEnabled</name>
  <value>true</value>
</property>
<property> 
  <name>phoenix.schema.mapSystemTablesToNamespace</name>
  <value>true</value>
</property>

然后,按照提示重启HBase服务并重新部署客户端配置即可。

命令行使用

CDH 安装后环境变量都已经配置好了,可以直接使用 phoenix-sqlline.py,如下:

[root@hadoop-01 ~]$ phoenix-
phoenix-performance.py  phoenix-psql.py         phoenix-sqlline.py      phoenix-utils.py

执行 phoenix-sqlline.py 初始化使用 Phoenix:

然后我们查看下 HBase 中 Phoenix 的系统表:

hbase(main):003:0> list
SYSTEM:CATALOG
 SYSTEM:FUNCTION 
SYSTEM:LOG
SYSTEM:MUTEX
SYSTEM:SEQUENCE
SYSTEM:STATS 

接下来看一下如何在 Phoenix 中创建 HBase 表的二级索引。

使用 Phoenix 创建 HBase 二级索引

映射已存在的 HBase 表
  1. 查看 HBase 表

当前 HBase 中存在一张操作日志表 ns1000:operate_log,数据量近280w,包括14个字段,如下:

hbase(main):017:0> count 'ns1000:operate_log', INTERVAL => 100000
...
2799827 row(s) in 173.4200 seconds=> 2799827

hbase(main):018:0> scan 'ns1000:operate_log', LIMIT => 1
ROW                                                          COLUMN+CELL
\x00\x00\x12\x12\x00\x00\x00\x0D1538216707720               column=f:appVersion, timestamp=1538216707892, value=2.22.0
\x00\x00\x12\x12\x00\x00\x00\x0D1538216707720               column=f:area, timestamp=1538216707892, value=\xE6\xB1\x9F\xE5\x8C\x97\xE5\x8C\xBA
\x00\x00\x12\x12\x00\x00\x00\x0D1538216707720               column=f:authId, timestamp=1538216707892, value=
\x00\x00\x12\x12\x00\x00\x00\x0D1538216707720               column=f:city, timestamp=1538216707892, value=\xE9\x87\x8D\xE5\xBA\x86\xE5\xB8\x82
\x00\x00\x12\x12\x00\x00\x00\x0D1538216707720               column=f:imei, timestamp=1538216707892, value=AF36147F-8106-47F0-B58FA3FB75DBE325
\x00\x00\x12\x12\x00\x00\x00\x0D1538216707720               column=f:lat, timestamp=1538216707892, value=29.577587127685547
 \x00\x00\x12\x12\x00\x00\x00\x0D1538216707720               column=f:lon, timestamp=1538216707892, value=106.50493621826172
 \x00\x00\x12\x12\x00\x00\x00\x0D1538216707720               column=f:memberType, timestamp=1538216707892, value=0
\x00\x00\x12\x12\x00\x00\x00\x0D1538216707720               column=f:mobileManufacturer, timestamp=1538216707892, value=iPhone
 \x00\x00\x12\x12\x00\x00\x00\x0D1538216707720               column=f:mobileModel, timestamp=1538216707892, value=iPhone 6 Plus
\x00\x00\x12\x12\x00\x00\x00\x0D1538216707720               column=f:province, timestamp=1538216707892, value=\xE9\x87\x8D\xE5\xBA\x86\xE5\xB8\x82
\x00\x00\x12\x12\x00\x00\x00\x0D1538216707720               column=f:systemType, timestamp=1538216707892, value=1
\x00\x00\x12\x12\x00\x00\x00\x0D1538216707720               column=f:systemVersion, timestamp=1538216707892, value=12.0
\x00\x00\x12\x12\x00\x00\x00\x0D1538216707720               column=f:time, timestamp=1538216707892, value=1538216707720
1 row(s) in 0.0460 seconds
  1. Phoenix 中创建与 namespace 名称一致的 schema
0: jdbc:phoenix:> create schema if not exists "ns1000";
No rows affected (0.012 seconds)
  1. Phoenix 中创建视图,并查询数据及条数
0: jdbc:phoenix:> use "ns1000";
No rows affected (0.021 seconds)
0: jdbc:phoenix:> create view "operate_log"(
. . . . . . . . > "pk" varchar primary key,
. . . . . . . . > "f"."appVersion" varchar,
. . . . . . . . > "f"."city" varchar,
. . . . . . . . > "f"."lat" varchar,
. . . . . . . . > "f"."lon" varchar,
. . . . . . . . > "f"."memberType" varchar,
. . . . . . . . > "f"."time" varchar);
No rows affected (6.555 seconds)
0: jdbc:phoenix:> !tables
+------------+--------------+--------------+---------------+----------+------------+----------------------------+-----------------+--------------+-----------------+---------------+---------------+-----------------+------------+--------+
| TABLE_CAT  | TABLE_SCHEM  |  TABLE_NAME  |  TABLE_TYPE   | REMARKS  | TYPE_NAME  | SELF_REFERENCING_COL_NAME  | REF_GENERATION  | INDEX_STATE  | IMMUTABLE_ROWS  | SALT_BUCKETS  | MULTI_TENANT  | VIEW_STATEMENT  | VIEW_TYPE  | INDEX_ |
+------------+--------------+--------------+---------------+----------+------------+----------------------------+-----------------+--------------+-----------------+---------------+---------------+-----------------+------------+--------+
|            | SYSTEM       | CATALOG      | SYSTEM TABLE  |          |            |                            |                 |              | false           | null          | false         |                 |            |        |
|            | SYSTEM       | FUNCTION     | SYSTEM TABLE  |          |            |                            |                 |              | false           | null          | false         |                 |            |        |
|            | SYSTEM       | LOG          | SYSTEM TABLE  |          |            |                            |                 |              | true            | 32            | false         |                 |            |        |
|            | SYSTEM       | SEQUENCE     | SYSTEM TABLE  |          |            |                            |                 |              | false           | null          | false         |                 |            |        |
|            | SYSTEM       | STATS        | SYSTEM TABLE  |          |            |                            |                 |              | false           | null          | false         |                 |            |        |
|            | ns1000       | operate_log  | VIEW          |          |            |                            |                 |              | false           | null          | false         |                 | MAPPED     |        |
+------------+--------------+--------------+---------------+----------+------------+----------------------------+-----------------+--------------+-----------------+---------------+---------------+-----------------+------------+--------+
0: jdbc:phoenix:> !columns "operate_log";
+------------+--------------+--------------+--------------+------------+------------+--------------+----------------+-----------------+-----------------+-----------+----------+-------------+----------------+-------------------+--------+
| TABLE_CAT  | TABLE_SCHEM  |  TABLE_NAME  | COLUMN_NAME  | DATA_TYPE  | TYPE_NAME  | COLUMN_SIZE  | BUFFER_LENGTH  | DECIMAL_DIGITS  | NUM_PREC_RADIX  | NULLABLE  | REMARKS  | COLUMN_DEF  | SQL_DATA_TYPE  | SQL_DATETIME_SUB  | CHAR_O |
+------------+--------------+--------------+--------------+------------+------------+--------------+----------------+-----------------+-----------------+-----------+----------+-------------+----------------+-------------------+--------+
|            | ns1000       | operate_log  | pk           | 12         | VARCHAR    | null         | null           | null            | null            | 0         |          |             | null           | null              | null   |
|            | ns1000       | operate_log  | appVersion   | 12         | VARCHAR    | null         | null           | null            | null            | 1         |          |             | null           | null              | null   |
|            | ns1000       | operate_log  | city         | 12         | VARCHAR    | null         | null           | null            | null            | 1         |          |             | null           | null              | null   |
|            | ns1000       | operate_log  | lat          | 12         | VARCHAR    | null         | null           | null            | null            | 1         |          |             | null           | null              | null   |
|            | ns1000       | operate_log  | lon          | 12         | VARCHAR    | null         | null           | null            | null            | 1         |          |             | null           | null              | null   |
|            | ns1000       | operate_log  | memberType   | 12         | VARCHAR    | null         | null           | null            | null            | 1         |          |             | null           | null              | null   |
|            | ns1000       | operate_log  | time         | 12         | VARCHAR    | null         | null           | null            | null            | 1         |          |             | null           | null              | null   |
+------------+--------------+--------------+--------------+------------+------------+--------------+----------------+-----------------+-----------------+-----------+----------+-------------+----------------+-------------------+--------+
0: jdbc:phoenix:> select * from "operate_log" limit 1;
+------------------------+-------------+-------+---------------------+---------------------+-------------+----------------+
|           pk           | appVersion  | city  |         lat         |         lon         | memberType  |      time      |
+------------------------+-------------+-------+---------------------+---------------------+-------------+----------------+
1538216707720  | 2.22.0      | 重庆市   | 29.577587127685547  | 106.50493621826172  | 0           | 1538216707720  |
+------------------------+-------------+-------+---------------------+---------------------+-------------+----------------+
1 row selected (0.115 seconds)
0: jdbc:phoenix:> select count(*) from "operate_log";
+-----------+
| COUNT(1)  |
+-----------+
| 2799827   |
+-----------+
1 row selected (3.848 seconds)
  1. 根据字段 time 进行时间范围查询:
0: jdbc:phoenix:> select count(*) from "operate_log" where "f"."time" between '1538216707720' and '1538223834000';
+-----------+
| COUNT(1)  |
+-----------+
| 5883      |
+-----------+
1 row selected (5.241 seconds)

这种情况下,基本上查询都在 5s 左右。

这里还要有两点说明:

  • Phoenix 会自动将表名、字段名都转成大写,如果要区分大小写使用双引号括起来即可。

  • 这里我们创建的是视图,相当于外部表,也可以 create table 创建表,视图的特点是删除时不会删除 HBase 表,但是视图创建的二级索引不会自动更新,如果要实时更新的话,只能使用 create table,然后通过 Phoenix jdbc 的方式写入数据,只有通过 Phoenix 写,然后用 Phoenix 实现的协处理器才能实现实时更新的索引。

使用 Phoenix 创建二级索引
  1. 使用 Phoenix 对 time 字段创建索引
0: jdbc:phoenix:> create index index_operate_log_time on "operate_log" ("f"."time");
2,799,827 rows affected (95.814 seconds)
  1. 再次根据 time 字段做范围查询
00: jdbc:phoenix:> select count(*) from "operate_log" where "f"."time" between '1538216707720' and '1538223834000';
+-----------+
| COUNT(1)  |
+-----------+
| 5883      |
+-----------+
1 row selected (0.049 seconds)

这里基本上查询都在 50 ms 左右。这就是通过 Phoenix 的二级索引带来的性能提升。

Phoenix 索引类型介绍

Phoenix 提供了多种索引类型,包括覆盖索引、函数索引,以及全局索引与本地索引等,具体介绍如下。

Covered Indexes(覆盖索引)

覆盖索引是在索引表中直接存储某些常用字段,当查询时所有字段仅涉及索引表中包含的字段时,则无需再在基于 rowkey 索引的数据表中查询,提高了查询的效率。

比如,我们在operate_log 表 "f"."time" 列上创建一个索引,并在索引中包含"f"."lat", "f"."lon" 列:

0: jdbc:phoenix:> create index index_operate_log_time2 on "operate_log" ("f"."time") INCLUDE("f"."lat", "f"."lon");
2,799,827 rows affected (133.367 seconds)

这样我们做类似如下查询时就可以直接走索引表,以提高查询性能:

0: jdbc:phoenix:> select "f"."lat", "f"."lon" from "operate_log" where "f"."time" between '1538216707720' and '1538223834000' limit 10;
Functional Indexes(函数索引)

函数索引是在 Phoeinx 4.3 版本之后新增的,它使得索引的建立不仅仅只限于基于列,而可以使用任意的表达式来创建索引,在查询时,如出现相同的表达式查询条件,则会自动优先检索索引表。

比如,我们在operate_log 表上基于 substr ( "f"."time", 1, 10) 创建一个索引:

0: jdbc:phoenix:> create index index_operate_log_time3 on "operate_log" (substr("f"."time", 1, 10));
2,799,827 rows affected (94.74 seconds)

这样创建索引后,我们就可以使用相同表达式走索引表进行查询优化了,比如:

0: jdbc:phoenix:> select count(*) from "operate_log" where substr("f"."time", 1, 10) between '1538216707' and '1538223834';
+-----------+
| COUNT(1)  |
+-----------+
| 5886      |
+-----------+
1 row selected (0.059 seconds)
Global Indexes(全局索引)

上面的覆盖索引和函数索引都属于全局索引,也是 Phoenix 默认的索引创建模式。

全局索引将索引表和数据表分开存储,如以上例子中都会创建一张新的索引表,因此每条数据和其索引数据可能会分布在不同的数据节点上,数据表的添加、删除和修改都会更新相关的索引表,所以写入数据时由于额外的网络开销会带来较大的性能消耗。而查询数据的时候,Phoenix 会通过索引表来快速低损耗的获取数据。因此全局索引更适合读多写少的使用场景。

Local Indexes(本地索引)

本地索引与全局索引相反,在 4.8.0 版本之后会将索引数据以特定的列簇存储在同一张数据表中,并通过特定的 rowkey 设置,将每条数据及其索引数据存储在同一 region 中,因此在数据写入时防止了额外的网络开销,而在读取数据时因无法提前判断索引数据的准确位置,则会在所有的 region 中检索索引数据,而非常影响读取性能。所以本地索引更适合于写多读少的使用场景。

本地索引只要在原来索引创建时增加 local 关键字即可,比如:

0: jdbc:phoenix:> create local index index_operate_log_time on "operate_log" ("f"."time");
总结

Phoenix 是构建在 HBase 之上的 SQL 层,不仅能够提供标准的 SQL 查询,还能够为 HBase 提供二级索引能力,在 HBase 使用场景中应用非常广泛。Phoenix 二级索引主要分为全局索引和本地索引,全局索引适合那些读多写少的场景,本地索引更适合那些写多读少的场景。判断是否走索引可以 explain SQL 查看具体执行计划。

参考:

1. HBase集成Phoenix,构建Phoenix view和table的区别
2. 如何使用Phoenix在CDH的HBase中创建二级索引
3. 产品 | Cloudera正式宣布在CDH中支持Apache Phoenix

如果您喜欢这篇文章,点【在看】与转发都是一种鼓励,期待得到您的认可 ❥(^_-)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,658评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,482评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,213评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,395评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,487评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,523评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,525评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,300评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,753评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,048评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,223评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,905评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,541评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,168评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,417评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,094评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,088评论 2 352

推荐阅读更多精彩内容