常用的sql查询引擎
hive,impala,hive on spark,presto(京东),drill(支持hdfs,hive),phoenix(hbase)
存储格式
- orc(列式存储,Zlib压缩,侧重压缩率,和hive关系比较紧密)
- rc(列式存储)
- parquest(列式存储,spark默认的存储格式,采用Snappy压缩,侧重计算的性能)
总体可以认为,在我们当前的数据集和hive版本环境下,在文件写入方面,ORC相比RC文件的优势不显著,一些场合RC文件还要更优,在查询检索方面,ORC则基本是更优的,性能差距大小取决于具体数据集和检索模式。如果Hive能集成ORC更新的版本,支持LZ4,并修复一些Bug,那应该就没有任何再使用RC的理由了。
至于Parquet,可以考虑在需要支持深度嵌套的数据结构的应用场合中去使用