Hadoop、Hbase、Hive三者关系

Hadoop本质上是：分布式文件系统(HDFS) + 分布式计算框架(Mapreduce) + 调度系统Yarn搭建起来的分布式大数据处理框架。

Hive：是一个基于Hadoop的数据仓库，适用于一些高延迟性的应用（离线开发），可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能。Hive可以认为是MapReduce的一个包装，把好写的HQL转换为的MapReduce程序，本身不存储和计算数据，它完全依赖于HDFS和MapReduce，Hive中的表是纯逻辑表。hive需要用到hdfs存储文件，需要用到MapReduce计算框架。

HBase：是一个Hadoop的数据库，一个分布式、可扩展、大数据的存储。hbase是物理表，不是逻辑表，提供一个超大的内存hash表，搜索引擎通过它来存储索引，方便查询操作。HBase可以认为是HDFS的一个包装。他的本质是数据存储，是个NoSql数据库；HBase部署于HDFS之上，并且克服了hdfs在随机读写方面的缺点，提高查询效率。

对HBASE数据结构的简单说明：

HBASE

假设HBASE表内容如上，一般将personal data 和 professional data称为column family，而name、city、designation和salary则称为各个column family下面的qualifier。每一个column family都可以认为是一个字典结构，其里面的qualifier则为key，如下：

{
  "row1": {
    "personal_data": {
      "name": "raju",
      "city": "hyderabad"
    },
    "professional_data": {
      "designation": "manager",
      "salary": 5000
    }
  },
  "row2": {...}
}

其中，对于每一行，每个qualifier其实并不是必须存在的，可以缺失。除了上面的column family，qualifier之外，还有timestamp信息，即每个字段数据保留多久（TTL）。

参考：
https://www.zhihu.com/question/403840156/answer/1308998199
https://www.yiibai.com/hbase/hbase_create_data.html#article-start

最后编辑于：2022.07.02 10:46:14

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

Hadoop、Hbase、Hive三者关系

Hadoop、Hbase、Hive三者关系

相关阅读更多精彩内容

友情链接更多精彩内容