登录注册写文章

hive表之分桶

飞不高的老鸟

hive表之分桶

桶是 hive 表在表(分区)结构的基础上额外的一种数据文件，它的出现有两方面的意义：

一、提高表数据的查询效率。
二、随机取样。

分桶规则：hive 表是对指定的某列属性进行 hash，然后使用 hash 值对桶数进行取模，分到不同的桶内。事实上，表结构和分区结构都是以文件夹目录的形式存在，而分桶结构则是以文件的形式存在。

hive 分桶表如何创建并加载数据？

和分区表一样，分桶表也需要在创建时进行指定要做分桶的属性。

创建分桶表。

hive> create table bucket_test(userid int, name string) clustered by (userid) into 4 buckets
    > Row format delimited
    > Fields terminated by ','
    > Lines terminated by '\n';
OK

向分桶表中加载数据之前，我们需要配置分桶相关的参数。

hive> set hive.enforce.bucket=true;
hive> load data local inpath 'xxx/test.txt' into table  bucket_test;
hive> select * from bucket_test;
OK
105729360   zhangsan
105729384   lisi
105729420   wangwu
105729448   zhaoliu
105729497   lisa
105729374   lucy
105729434   lily
105729530   json
105729587   jack

通过上面操作，创建了分桶表并向表中加载了测试数据。事实上，分桶表数据文件数与创建表时指定的桶数是一致的，桶的个数同时也是reducer的数目。

-rwxrwx--x 1 test hive 76 5月 21 11:34 000000_0
-rwxrwx--x 1 test hive 19 5月 21 11:34 000001_0
-rwxrwx--x 1 test hive 57 5月 21 11:34 000002_0
-rwxrwx--x 1 test hive 38 5月 21 11:34 000003_0

hive分桶表的优势？

一、提高数据查询效率

这个优势在两张大表进行关联查询时可以明显提现出来。由于两张表在同一属性（如 userid）进行分桶处理，在进行关联时，只需要关联相对应的桶号即可，不用进行全表的扫描处理。

通过分桶关联，可以将 jion 操作转为 map jion 操作，在 map 端进行 jion。

两张表的桶数不一定相同，倍数关系也有相同的优势。

二、随机样本选取

在有些情况下，我们不需要知道全表数据的情况，而只需要选取一部分样本数据进行分析，此时分桶表就可以充分体现其随机的优势。

hive> select * from bucket_test TABLESAMPLE(BUCKET 1 out of 4 on userid);
OK
105729360   zhangsan
105729384   lisi
105729420   wangwu
105729448   zhaoliu

其中 1 是从第一个桶开始取数，4 表示桶数的因子份数据，4/4。备注：这里的因子也可以是桶数的倍数（如8，这里数据量为 4/8）。

对于一个大规模数据量的表来讲，采用这种随机方式，可以获取随机性好，且数据量是我们需要的样本数。
对于随机样本选取，有时会选用 rand() 函数，然而，其效率要远远低于使用分桶的方式。因为使用 rand() 函数时，需要对全表进行扫描，这大大降低了样本选取的效率。

总结

分桶表不仅可以有效提升大数据量的查询效率，而且可以在随机样本选取场景中发挥重要的作用。因此，用好 hive 分桶策略可以提高我们的工作效率。

最后编辑于：2019.10.21 19:54:25

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

友情链接更多精彩内容

赞1赞

赞赏

手机看全文