Phoenix的常用操作
Phoenix是架构在Hbase上的一个SQL转化组件,它可以把sql语句转换成Hbase的一个或者多个扫描,然后分发到Hbase的Server端进行查询,提高了查询效率同时避免开发者写复杂的api代码,只需要会sql即可操作hbase的数据,大大降低了上手难度。
-
前期准备
想要通过phoenix查询Hbase的表必须先在phoenix建立映射表,映射到Hbase已存在的表,可以通过create view 和create table命令来实现
create view "t1" ("rowkey" varchar primary key,
"f1"."id" varchar,
"f2"."money" varchar,
"f1"."name" varchar,
) as select * from "t1";
create view和create table的区别是create table会加上一个验证信息,在phoenix删除表的时候table会把hbase对应的数据删除,view则不会。
- 添加依赖
<dependency>
<groupId>org.apache.phoenix</groupId>
<artifactId>phoenix-core</artifactId>
<version>4.10.0-HBase-1.1</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-hdfs</artifactId>
<version>2.6.3</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-common</artifactId>
<version>2.6.3</version>
<exclusions>
<exclusion>
<groupId>org.slf4j</groupId>
<artifactId>slf4j-log4j12</artifactId>
</exclusion>
</exclusions>
</dependency>
在添加phoenix的依赖时需要加上hadoop的依赖包,不然会报找不到hadoop下的配置文件
- 建立连接
C3P0配置文件
使用C3p0连接池可以很好配置多数据源,另外phoenix在查询的时候建立连接的速度很慢,使用连接池可以大幅提高查询的速度。
<?xml version="1.0" encoding="UTF-8"?>
<c3p0-config>
<named-config name="phoenix">
<property name="user"></property>
<property name="password"></property>
<property name="driverClass">org.apache.phoenix.jdbc.PhoenixDriver</property>
<!--url是zookeeper的地址,可以有多个,用逗号隔开-->
<property name="jdbcUrl">jdbc:phoenix:localhost:2181</property>
<!--当连接池中的连接耗尽的时候c3p0一次同时获取的连接数 -->
<property name="acquireIncrement">2</property>
<!--初始化时获取十个连接,取值应在minPoolSize与maxPoolSize之间 -->
<property name="initialPoolSize">3</property>
<!--连接池中保留的最小连接数 -->
<property name="minPoolSize">3</property>
<!--连接池中保留的最大连接数 -->
<property name="maxPoolSize">10</property>
<!--JDBC的标准参数,用以控制数据源内加载的PreparedStatements数量。但由于预缓存的statements属于单个connection而不是整个连接池。所以设置这个参数需要考虑到多方面的因素。如果maxStatements与maxStatementsPerConnection均为0,则缓存被关闭。Default:
0 -->
<property name="maxStatements">20</property>
<!--maxStatementsPerConnection定义了连接池内单个连接所拥有的最大缓存statements数。Default: 0 -->
<property name="maxStatementsPerConnection">5</property>
<!-- 验证连接池里的连接(haproxy)有效性频率,这里配置120s -->
<property name="idleConnectionTestPeriod">120</property>
<!-- 验证语句 select 1最高效 -->
<property name="preferredTestQuery">select 1</property>
</named-config>
</c3p0-config>
C3P0的连接代码这里就不贴出来了哈,和通用的sql连接一样
- 常用语法
1.sum等聚合函数
在hbase的存储类型中,都是以字符串的形式存储,因此在对某些字段进行聚合操作时需要通过过to_number()函数把相应的字段转换成number类型。
select sum(to_number("money")) from t1;
2.分页
phoenix的分页不是像mysql的limit 1,3 这种分页语法,而是用limit 3 offset 0 来实现分页,另外phoenix的分页是从0开始不是1
select name from t1 limit 3 offset 0;
3.排序
在使用phoenix的排序时,phoenix会把0作为null排在最前面,使用nulls last 可以解决次问题
select name,sum(to_number("money")) as money from t1 group by name order by money desc nulls last;
-
二级索引
rowkey是hbase的一级索引,所有的查询都通过rowkey来定位数据,但是面对复杂查询逻辑往往需要扫描全表来查询数据,这极大地降低了hbase的查询效率,这时就需要使用索引来提高查询的速度,在自己维护hbase的二级索引时十分繁琐,现在通过phoenix就可以建立索引。
1.覆盖索引
覆盖索引一旦找到了对应的索引,不需要返回主表,会直接把数据绑定到索引行,节省了读取的开销。
cteate index cover_index on t1(name,money) include(order)
上面语句的意思是在表t1的列name,money上创建索引cover_index,并在索引中包含了order列,防止从原始数据获取该列。
2.功能索引
功能索引允许不仅可以在列上而且可以在任意表达式上创建索引。然后,当一个查询时使用该表达式时,索引可以用来检索结果而不是数据表。
3.全局索引
建立全局索引主要是为了提高了读操作的性能,但在写操作的时候会损失一些性能,因为全局索引是建立了单独的habse表来存储索引表的索引数据
cteate index blobal_index on t1(name)
在使用全局索引时尽量条件包含到索引列,不然会导致扫描全表,影响效率。同时需要在每个RegionServer的hbase-site.xml配置文件下添加一下属性,用以支持全局或者本地索引。
<property>
<name>hbase.regionserver.wal.codec</name>
<value>org.apache.hadoop.hbase.regionserver.wal.IndexedWALEditCodec</value>
</property>
4.本地索引
本地索引主要适用于写多读少且空间非常有限的场景,与全局索引一样,Phoenix将自动选择是否在查询时适用本地索引。索引数据表和原始数据表都放在相同的服务器中,为了防止在写入期间出现额外的网络开销。但是即使查询的字段不是索引字段,本地索引也会被使用,与全局索引不同的是,所有的本地索引都单独存储在同一张共享的表中,因为无法预先确定Region的位置,所以在读数据的时候会检查每个Region上的数据,因此会带来一定的性能开销
#建立本地索引
create local index local_index on t1(name);
#使用本地索引
select * from t1 where name = 'xx';