Hive-文件存储格式+压缩算法

image.png

前置知识点

行存储:适合插入
列存储:适合查询

存储格式

  • textFile 文本
  • sequenceFile二进制
  • parquet 列式存储 二进制(自带索引)
  • orc 格式 (最好)ORC不是一个单纯的列式存储格式,仍然是首先根据行组分割整个表,在每一个行组内进行按列存储 (自带索引)
  • avro 格式的文件 会产生一份scheam 信息,可以自动化建表

hive表的文件格式是如何指定的呢?

建表的时候通过==STORED AS 语法指定。如果没有指定默认都是textfile==。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容