Hive是建立在Hadoop之上的"数据仓库工具",它让你能用写SQL的方式来处理海量数据。
流程:
你的SQL查询 → Hive → 转换成MapReduce/Spark任务 → Hadoop集群执行 → 返回结果给你
hive 不是数据库,而是数据仓库,数据仓库不是大的数据库的概念。
hive是用来更方便的操作hadoop的,可以仅用HQL(类似于SQL语法)来操作大数据。
⚡ Hive的特点
优点
简单易用:会SQL就能用
扩展性强:可处理PB级数据
成本低:建立在开源Hadoop之上
成熟稳定:经过多年企业验证
缺点(重要!)
延迟高:不适合实时查询(分钟级响应)
不支持事务:不是OLTP数据库
不支持更新/删除:主要是追加和查询(Hive新版本支持有限更新)

image.png