hive小总结

hive 是Hadoop上的组件,是一种数据仓库,是在HDFS和mapreduce 两个引擎上的。

数据仓库

数据仓库,我的理解就是数据库的集合,注意是集合,不是集群,数据有关系型数据库和非关系型数据库,而数据仓库可以即可以放置关系型数据也可以放置非关系型数据,是集成的,面向主题的。数据是冗余的。比如hive 这个数据仓库就是放置数据的元数据的。就比如数据库的路径,大小各种参数。数据仓库中的数据是不可更新的,所涉及的操作主要是查询,而查询类似之前的mysql oracle 数据库的查询语句。 可以把hive 理解为sql 语句和mapreduce 的映射器 hive 并不存储数据,只是管理HDFS上的数据。

访问hive

1.client shell 访问

2.jdbc,odbc 的接口访问,thrift hive --service hiveserver

3,web hive --service hwi

hive的三种表

数据库创建:


数据库创建

修改,删除数据库:


修改删除数据库

内部表:


内部表操作


外部表:

外部表 删除外部表时候,只删除元数据



分区表:


分区表建立


修改表结构:


增加表的列
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容