spark sql快速入门

常用的sql查询引擎

hive,impala,hive on spark,presto(京东),drill(支持hdfs,hive),phoenix(hbase)

存储格式
  • orc(列式存储,Zlib压缩,侧重压缩率,和hive关系比较紧密)
  • rc(列式存储)
  • parquest(列式存储,spark默认的存储格式,采用Snappy压缩,侧重计算的性能)

总体可以认为,在我们当前的数据集和hive版本环境下,在文件写入方面,ORC相比RC文件的优势不显著,一些场合RC文件还要更优,在查询检索方面,ORC则基本是更优的,性能差距大小取决于具体数据集和检索模式。如果Hive能集成ORC更新的版本,支持LZ4,并修复一些Bug,那应该就没有任何再使用RC的理由了。

至于Parquet,可以考虑在需要支持深度嵌套的数据结构的应用场合中去使用

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容