Phoenix 索引

查询条件对查询性能的影响

下面是一张存有商品的编号、日期、价格、销量、库存的数据表

CREATE TABLE IF NOT EXISTS Product (
    id           VARCHAR not null,
    time         VARCHAR not null,
    price        FLOAT,
    sale         INTEGER,
    inventory    INTEGER,

    CONSTRAINT pk PRIMARY KEY (id, time)
) COMPRESSION = 'GZ', SALT_BUCKETS = 6

在这个 Phoenix SQL 创建的 HBase 表里,id 和 time 组成了 HBase 的 row key,并且 id 在前 time 在后,由于 HBase 的数据是以 row key 排序的,所以这里相当于先按 id 排序,再按 time 排序,这时如果以 id 和 time 以外的字段作为查询条件的话,都会导致全表扫描,即会查询所有的 row key,即需要遍历所有 id 的所有 time,因为 HBase 并不知道哪行记录存有满足条件的值,比如

select * from Product where price > 200
select * from Product where sale > 100
select * from Product where inventory < 50 

如果以 time 查询,由于 time 是 row key 的后半部分,所以需要遍历所有 id 的部分 time,比如

select * from Product where time > '2020-01-01'

如果以 id 查询,由于 id 是 row key 的前半部分,可以直接把满足条件的数据找出来,比如

select * from Product where id > '10000'

可以看到,查询性能和 row key 的设计有很大关系,但一张表可能有多种查询需求,row key 的设计无法满足所有情况,这时可以通过创建索引提升查询性能

索引

如果希望提升以 sale 做查询条件时的性能,可以创建下面的索引

create index INDEX_PRODUCT on Product(sale) include(
    price
) SALT_BUCKETS=6;

索引实际上是创建另一张 HBase 表,这张表按顺序以 sale、id、time 组成 row key(原表的 row key 一定会出现在索引表的 row key),而被 include 的 price 则在 CF 列,这样当查询条件是 sale,同时要获取的是 key 字段或是被 include 的字段时,Phoenix 会去索引表取值,由于在这个索引里 sale 是在 row key 的最前面,这样就能避免全表扫描,比如查询

select time, price from Product where sale > 100

但是如果要查询的字段即不是 key 也没被 include,这样依然会去查原表,比如

select * from Product where sale > 100

这时需要把 inventory 也 include 进来才会用到索引
(由于原表的 key 一定会加进来所以不用 include)

create index INDEX_PRODUCT on Product(sale) include(
    price, inventory
) SALT_BUCKETS=6;

如果只是把第二个 key 即 time 做索引,比如

create index INDEX_PRODUCT on Product(time) SALT_BUCKETS=6;

那么索引表的 row key 由 time、id 组成,相当于原 row key 交换了顺序,并且没有 CF 值

触发索引的条件

总结一下触发索引需要满足以下条件

  • where 字段是索引字段,或是索引字段和 key 字段
  • select 字段是 key 字段,或是索引字段,或是被 include 的字段

索引对查询性能的影响

索引不一定能显著提升查询性能,这取决于数据分布和查询条件

如果是以 time 为查询条件,在原表需要查询所有 id 的部分 time,而在索引表是直接查询 time,这样如果满足查询条件的 id 很少,性能会有显著提升,如果满足查询条件的 id 本来就非常多,性能可能就没有明显提升

如果是以 sale 为查询条件,在原表需要查询所有 id 的所有 time,即需要查询原表所有 row key,而在索引表是直接查询 sale,一般来讲性能会有显著提升,除非满足查询条件的 id + time 非常多,即满足条件的原表 row key 非常多,那性能可能就没有明显提升

强制使用索引

在不把 inventory include 进来的情况下也可以强制使用索引表
通过在 select 时加上 /*+ INDEX(table index) */ 的方式

select /*+ INDEX(Product INDEX_PRODUCT ) */ * FROM Product where sale > 100

这样会强制查询索引表,但由于 inventory 其实不在索引表,最后还是会去查询原表,但可能会缩小查询范围

比如以 time 为查询条件,在原表需要查询所有 id 的部分 time,而先查询索引可以先过滤出满足查询条件的 id,再去原表查询满足条件的 id 的部分 time,如果过滤出来的 id 很少,性能会有显著提升,如果过滤出来的 id 非常多,性能可能就没有明显提升,甚至可能会有下降,因为要查两张表

同样的,如果以 sale 为查询条件,在原表需要查询所有 id 的所有 time,而先查索引表可以先过滤出满足条件的 id 和 time,再去原表查询过滤出来的 id 和 time,如果过滤出来的 id 和 time 比较少,性能会有显著提升,如果过滤出来的非常多,性能可能就没有明显提升,甚至会下降,因为要查两张表

对写性能的影响

索引会导致写性能下降,因为要写两张表,同时消耗更多的磁盘空间

explain 命令

可以通过 explain 命令查看数据库是如何查询的

explain select * from Product where sale > 100


异步创建索引

如果创建索引时原表已经有大量数据了,可能会等很长时间,这时可以使用异步创建的方式

create index INDEX_PRODUCT on Product(sale) include(
    price
) ASYNC;

再用 hbase 命令触发执行

hbase org.apache.phoenix.mapreduce.index.IndexTool \
    --data-table=Product \
    --index-table=INDEX_PRODUCT \
    --output-path=/user/spark/ASYNC_INDEX_HFILES     <-- 必须先在 hdfs 创建这个目录




最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,133评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,682评论 3 390
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,784评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,508评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,603评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,607评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,604评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,359评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,805评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,121评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,280评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,959评论 5 339
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,588评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,206评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,442评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,193评论 2 367
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,144评论 2 352

推荐阅读更多精彩内容

  • pyspark.sql模块 模块上下文 Spark SQL和DataFrames的重要类: pyspark.sql...
    mpro阅读 9,451评论 0 13
  • 一、SQL速成 结构查询语言(SQL)是用于查询关系数据库的标准语言,它包括若干关键字和一致的语法,便于数据库元件...
    shadow雨轩阅读 513评论 0 3
  • 头夹肌 在体侧线中,与胸锁乳突肌向前上方的“X”对应的是头夹肌。 附着点 起点:项韧带和第七颈椎至第三胸椎椎体(C...
    厚_德_载_物阅读 786评论 0 4
  • 本次分享大纲 大型网站架构系列 分布式系统系列 BAT技术文学系列 架构设计系列 本次分享总结 一、大型网站架构系...
    悟空嘿阅读 1,832评论 0 0
  • 最近看了一个视频健身激励说道 “在人生中,赢家不是那些有优异基因的人或是那最有天分的人,而是不屈不挠的人获胜,当他...
    阿猫读书阅读 692评论 9 9