如何实现CM+CDH构建企业级大数据平台
当前边所有的准备工作都搞定之后,接下来我们就来正式的通过CM+CDH的方式来构建企业级大数据平台。那么CM是什么?CDH是什么?CM和CDH的关系是什么?等等。有必要首先把这些基本概念了解清楚,然后我们再来进行具体的操作演练。
(一)CM是什么?
简单地说,CM是Cloudera Manager的缩写,即CM就是Cloudera公司研发的一款可以让企业对大数据平台的管理和维护变的更简单更直观的管理工具。那么怎么个简单直观法?
俗话说没有对比就没有伤害,我们先简单来做个对比,回忆一下不使用CM我们是如何对集群进行操作的。使用CM我们又是怎么操作的。
比如说启动HDFS,不使用CM之前要通过执行启动脚本命令,使用CM之后只需要点击对应按钮就行。 这只是一个最简单的比较。
除此之外,CM还可以实现以下功能:
1、自动化安装软件,不用我们先单独的下载解压,然后修改配置文件等等复杂的操作,只需要按照提示点击对应的按钮即可。
2、可以查看整个集群或各个节点的实时运行状态。对集群进行监控和报警。这个是不是更直观,否则你还要单独部署监控组件,比如Ganglia。
3、可以通过图形化界面修改集群的配置文件
这些是最直观的功能,当然还有其他高级功能,比如滚动升级、自定义图表、自定义报警监控、安全机制等等,这个后边有时间再说。总之,就是还不错哦,只要你真的想学,还是值得你放弃泡妞的时间来尝试一下的。
Ok,前边对CM夸赞那么多,实际上,CM就是一个web应用,可以让用户通过浏览器的可视化界面安装部署、管理维护大数据平台。让集群的管理维护由一个个黑乎乎的界面变成一个颜值还不错的web界面。而且CM的汉化做的也比较好,英文不太好,中文至少还凑活吧。所以说学起来相对来说还是不难的。
但是我们说过,图形化界面可以操作,直接在集群上也能操作,图形化界面相当于在集群上做了一层封装,难免在某些地方会有局限,所以说要想更深入的学习,希望小白还是要掌握一下Linux 的一些基本的操作的。
OK,CM我们先简单认识到这,后面我们再专门深入的讲解CM的架构和功能,以及如何安装部署CM。
(二)CDH是什么?
简单的说,CDH就是Cloudera's Distribution including Apache Hadoop的缩写,即CDH是包含Apache Hadoop的Cloudera的发行版。如果你没接触过Hadoop,你可以先这样理解,Hadoop是各个大数据公司几乎都在使用的用来解决大规模数据存储和计算等问题的一款好软件。实际上Hadoop里边还包括很多内容,深入一点一个月都讲不完,如果想系统的学习,大家可以到大讲台官网上了解一下。
(三)CDH和Apache Hadoop有何关系?
实际上Hadoop有很多发行版,比如CDH、HDP(Hortonworks Data Platform)、MapR、intel发行版、华为发行版等等。
但是这些发行版都是基于Apache Hadoop,Apache Hadoop的开源协议决定,任何人可以对其进行修改,并作为开源或商业产品发布/销售。所以衍生出了大量的发行版。 版本太多,在选择的时候就难免会产生困惑。我该选择哪一种呢?
实际上在用户选择使用哪种发行版的时候,一般会考虑两个问题:
第一:是不是好用
如果这些发型版还没有社区版好用,还没有apache hadoop用着爽,用户也不会选择?所以一般都会有一些新的特性,或者至少要在apache的基础上修复更多的bug
第二:要不要钱,即是不是收费
比如我们上边列出来的几种:Intel发行版、华为发行版是收费的,而CDH、HDP就可以免费使用,而且他们是开源的,CDH和HDP虽然也有收费版本,但是也只是收取服务费用。
在国内公司的使用率上,CDH发行版目前还是使用的最多的,所以我们也就学CDH。
当然了,不能只是简单地说,别人用,我也用,你也要大概了解一下,是由于CDH的哪些特点或好处让我们选择使用它。就像现在说话一样,逮个女的都是叫美女,实际上一看呢,呵呵。所以你就要好好看看到底是由于精致的脸蛋还是白白的大长腿让你觉着它是个美女。你选择学习一门技术或一个软件时也一样。到底是哪些特点或好处让我们选择使用它,OK,那么CDH有哪些好处如此深受广大大数据企业的青睐呢?我们一块来看一下。
(四)CDH有什么好处呢?
1、基于Apache协议,100%开源
2、基于稳定版本Apache Hadoop,并修复了大量的Bug,比Apache Hadoop的兼容性、安全性、稳定性更强
3、充分考虑了各个大数据组件之间的版本兼容性,版本管理更清晰(比如CDH5)
4、版本更新快,通常每2-3个月都会有一次更新
5、集群管理维护更简单方便,提供了部署、安装、配置、监控、诊断等工具(CM),大大提高了集群部署及维护的效率
还有因为第三方发行版通常都经过了大量的测试验证,有众多部署实例,大量的运行到各种生产环境。所以说使用起来更可靠。OK,CM和CDH简单了解了,那么他们之间有什么关系呢?加一块是啥意思?Ok,我们来Look一下。
(五)CM和CDH有什么关系呢?
通过CM统一的图形化界面快速自动的安装部署CDH相关的服务组件
所以说CM是一个web工具,CDH是一个软件栈,它包含很多软件,这些软件怎么安装呢,我们可以先安装CM,然后通过CM图形化界面自动的安装CDH里包含的各种软件。就这么简单。
按照前边的分析,那么接下来我们的任务就是先安装CM,然后再用CM来安装CDH包含的大数据相关的软件。