Hive使用场景:
离线数据
处理大数据
延迟高
数据的离线处理;比如:日志分析,海量结构化数据离线分析…
Hive的执行延迟比较高,因此hive常用于数据分析的,对实时性要求不高的场合;
Hive优势在于处理大数据,对于小数据没有优势,因为Hive的执行延迟比较高。
hive优点:
操作接口采用类SQL语法,提供快速开发的能力(简单、容易上手);
避免了去写MapReduce,减少开发人员的学习成本;
统一的元数据管理,可与impala/spark等共享元数据;
易扩展(HDFS+MapReduce:可以扩展集群规模;支持自定义函数);
数据分析师交流群:283296032
hive具体操作:
1、查看数据库:
show databases;
2、创建数据库:
create database if not exists a;
3、查看数据库信息:
describe databases a;
hive> describe database a;
OK
a hdfs://host-10-10-10-17:6200/user/hive/warehouse/a.dbhadoopUSER
Time taken: 0.034 seconds, Fetched: 1 row(s)
hive> desc database a;
-------同上面一样