hive 统计分析相关ANALYZE

1.前言

本文大部分是对于官方问的那个的理解，小部分是自己的测试感受
官方文档地址

https://cwiki.apache.org/confluence/display/Hive/StatsDev

ANALYZE 这个命令接触的不多，今天专门研究学习下

2、目的

见名知意，它的目的就是为了统计和分析的作用，它将统计的信息存储到metastore中，后续再来查询的时候就不需要在执行查询计算，而是直接获取即可

3、范围

统计信息支持新建的和现有的表，支持分区表和普通表的统计信息以及列统计信息

4、ANALYZE相关

1、表统计

表统计的信息包括:行数，文件数，大小（以字节为单位）

1、hive 是默认自动收集统计信息，由hive.stats.autogather 配置参数决定，默认是true。但是对于load data 方式是不支持的。（想一下也可以知道，他应该是在计算的时候去计算出这些统计信息）

注意:这个在hive中是自动收集的。在sparkThriftserver中并不适用，虽然用的hive的元数据信息，但是它们两个在这方面不相通。

2、手动收集。我们这边也可以指定手动收集，手动收集的指令为

ANALYZE TABLE [db_name.]tablename [PARTITION(partcol1[=val1], partcol2[=val2], ...)]
COMPUTE STATISTICS
[FOR COLUMNS] -- (Note: Hive 0.10.0 and later.)
[CACHE METADATA] -- (Note: Hive 2.1.0 and later.)
[NOSCAN];

其中如果指定了NOSCAN的话，该命令将不会去扫描文件，仅会收集文件数和文件大小的信息

3、查看表的统计信息

desc formatted tableName

hive 统计分析相关ANALYZE

hive 统计分析相关ANALYZE

1.前言

2、目的

3、范围

4、ANALYZE相关

1、表统计

注意:这个在hive中是自动收集的。在sparkThriftserver中并不适用，虽然用的hive的元数据信息，但是它们两个在这方面不相通。

2、列统计

推荐阅读更多精彩内容