HIVE认识

Hive是建立在Hadoop之上的"数据仓库工具",它让你能用写SQL的方式来处理海量数据。

流程:

你的SQL查询 → Hive → 转换成MapReduce/Spark任务 → Hadoop集群执行 → 返回结果给你
hive 不是数据库,而是数据仓库,数据仓库不是大的数据库的概念。
hive是用来更方便的操作hadoop的,可以仅用HQL(类似于SQL语法)来操作大数据。

⚡ Hive的特点
优点
简单易用:会SQL就能用
扩展性强:可处理PB级数据
成本低:建立在开源Hadoop之上
成熟稳定:经过多年企业验证

缺点(重要!)
延迟高:不适合实时查询(分钟级响应)
不支持事务:不是OLTP数据库
不支持更新/删除:主要是追加和查询(Hive新版本支持有限更新)

image.png

💡核心要点总结

1.Hive不是数据库,而是数据仓库工具

2.Hive不是实时系统,适合离线分析

3.Hive用SQL操作,但背后是MapReduce/Spark

4.Hive处理海量数据,但响应较慢

5.Hive建立在Hadoop之上,依赖HDFS存储

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容