hadoop生态搭建(包括hbase,hive,hue等)

重要tip

  • 项目git地址
  • hadoop搭建部分,使用了kiwenlau的hadoop dockefile
  • 注意,hadoop的分布式是基于多机器的,而本github是通过docker来模拟实现的(单机多节点)。其主要目的,是让大家通过看dockerfile和相关shell了解基本的配置和搭建过程。说直白点,本dockerfile就是我认为的搭建流程的最简版。

hadoop,hbase,hive,hue的定位和关系

  • Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。
  • hbase是运行于HDFS文件系统之上的nosql。
  • hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。hive映射的表既可以落在hdfs上,也可以落在hbase上。
  • hue是支持多种数据库或数据仓库(包括hive)的web界面。

hadoop部署方式

  • 单机多节点。(本git的实现结果)
  • 多机多节点。
    • 鉴于网络特性,对于一类集群,单个机器至多只能存在该类集群的一个节点。
    • 因为存在多类集群,那么,单机上可以存在每一类集群的一个节点,即单机上可以存在多个不同类集群的节点。
    • 这种可以结合docker进行实现,但这里docker的network得为host类型的模式。
    • 真正的分布式,指的是这一种。

搭建步骤。(基本和下面的参考教程的顺序一致,大家可以参考教程其中的细节)

  1. hadoop
  2. hbase
  3. hive
  4. hive与hbase和hdfs的整合
  5. hue
  6. hue与hive的整合

主要参考教程(该部分是我搭建时,参考的教程,基本都是简易版本。)

相关镜像

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

友情链接更多精彩内容