学习目标
Hive是构建在Hadoop之上的数据仓库,它的本质是就是一个数据库
① Hive和一般意义上的数据库有什么区别
② 如何搭建数据库
③ 创建的过程是什么
④ 如何把数据导入到数据库
⑤ 什么是Hive,Hive的体系结构是什么
⑥ Hive如何与hadoop HDFS进行相互操作
⑦ Hive数据与Hadoop中的文件之间的关系
一 数据仓库
1.基本概念
概念:数据仓库是一个面向主题的,集成的,不可更新的,随时间不变化的数据集合,它用于支持企业或组织的决策分析处理
面向主题:按主题组织(商品推荐系统)
集成:数据仓库中的数据来自于分散的操作型的数据(oracle,mysql)
不可更新:只做数据查询,一般不做数据更新,删除
2.数据仓库的结构和建立过程
ETL
抽取Extract:提取不同数据源的数据
转化Transform:转化格式,不同数据源的数据格式可能不一致
装载Load:将满足数据格式的数据装载到数据仓库
OLTP:联机事务处理(银行转账,扣钱和加钱的动作应该同时完成,不能只有扣钱没有加钱,或者只有加钱,没有扣钱)操作频率很高
OLAP:联机分析处理(商品推荐系统,一般只做查询,不做更新插入操作)
3.数据仓库中的数据模型
星型模型,雪花模型
以商品信息为核心构建的星型模型
二、Hive
1.基本概念
- Hive是建立在Hadoop HDFS上的数据仓库基础架构
- Hive是SQL解析引擎,它将SQL语句转化成Map、Reduce Job 然后在Hadoop执行
- Hive允许熟悉MapReduce的开发者开发自定义的mapper和reducer来处理内建的mapper和reducer无法完成的复杂的分析工作
- Hive的表其实就是HDFS的目录/文件
2.Hive的体系结构
- Hive的元数据
-Hive将元数据存储在数据库中(metastore),支持mysql,derby等数据库。