Hadoop 集群安装详细步骤(2022.4.5)亲测有效

 Hadoop 安装

1、

目录

一、Hadoop 安装

         1、Hadoop 安装包下载

2、安装前

3、进去准备放置安装包的目录

4、下载安装包

二、Hadoop安装配置

三、HDFS 配置安装

修改配置

四、Yarn 配置安装

我们现在基于上面 HDFS 的安装配置来配置安装 Yarn,你会发现还是很简单的。

五、MapReduce 配置安装

1. 修改 yarn-site.xml 配置

2、在 hadoop01 机器上修改 yarn-site.xml 文件:

Hadoop 安装包下载

安装前

分别在 hadoop01、hadoop02、hadoop03 三台机器的根目录下创建三个两个文件夹 ,即执行下面的命令:

# 创建安装包目录

mkdir -p /export/softwares

# 创建文件目录

mkdir -p /export/servers

# 存储数据目录

mkdir -p /export/data

进去准备放置安装包的目录

# 该目录用来放安装包

cd /export/softwares

下载安装包

我们下载安装包的时候一般会去官网下载,Hadoop 的官网是  https://hadoop.apache.org/ 。

Hadoop 所有版本的安装包都放在  https://archive.apache.org/dist/hadoop/common/ 这个网址中,我们可以根据自己的需求下载相应的版本。

我们这篇文章以 Hadoop 2.x 系列的 Hadoop 2.7.4 版本为例来进行安装。

我们可以在 hadoop01 机器上通过下面的命令来下载 Hadoop 安装包:

## 进入到主目录下的 /export/softwares 目录下

cd /export/softwares

## 使用 wget 下载 hadoop 2.7.4 的安装包

wget https://archive.apache.org/dist/hadoop/common/hadoop-2.7.4/hadoop-2.7.4.tar.gz

 如果在虚拟机上面是第一次运行 wget 命令的时候,会报如下的错误:

[root@master bigdata]# wget https://archive.apache.org/dist/hadoop/common/hadoop-2.7.4/hadoop-2.7.4.tar.gz

-bash: wget: command not found

当出现上面的错误的时候,我们需要使用 yum 来安装 wget :

## 安装 wget 命令

yum -y install wget

然后再执行下面的命令:

## 使用 wget 下载 hadoop 2.7.4 的安装包

wget https://archive.apache.org/dist/hadoop/common/hadoop-2.7.4/hadoop-2.7.4.tar.gz

上面命令执行完后,在当前的目录下会出现名字为 hadoop-2.7.4.tar.gz 的压缩安装包。我们通过下面的命令解压安装包:

## 解压 hadoop 压缩安装包

tar zxvf hadoop-2.7.4.tar.gz

执行完后,在当前的目录下会出现一个名为 hadoop-2.7.4 的文件目录,这个目录就是 hadoop 的安装目录。

至此,Hadoop 安装包下载完毕。

我把本章节用的 hadoop 安装包放在了百度网盘,有需要的可以自行提取

链接: https://pan.baidu.com/s/1WwgdMNqd_-wI948Qi034Fw 提取码: j8q8

(下载完安装包后可以用远程传输工具上传到 hadoop01:/export/softwares 目录下,

然后解压到 /export/servers 目录)

------------------------------------------------------Hadoop下载完毕----------------------------------------------------

Hadoop安装配置

在 Hadoop 中包含了 3 个技术组件,分别是:

(1)分布式存储技术 - HDFS

(2)分布式资源管理技术 - Yarn

(2)分布式计算技术 - MapReduce

我们常说的 Hadoop 安装,实际上就包含了 HDFS 、Yarn 、 MapReduce 的安装,我们接下来分别配置安装。

HDFS 配置安装

修改配置

执行下面的命令进入到 hadoop 的配置文件所在的目录:

cd /export/servers/hadoop-2.7.4/etc/hadoop/

1. 修改 core-site.xml 配置文件

vim core-site.xml

在 configuration 标签中添加如下的内容:

<property>

    <name>fs.defaultFS</name>

    <value>hdfs://hadoop01:9999</value>

<description>表示HDFS的基本路径</description>

</property>

修改完后进行保存退出。

2. 创建 NameNode 和 DataNode 需要的文件目录

在 hadoop01 机器上执行下面的命令:

## 创建 NameNode 需要存储数据的文件目录

mkdir -p /export/data/dfs/name

## 创建 DataNode 需要存放数据的文件目录

mkdir -p /export/data/dfs/data

3. 修改 hdfs-site.xml 配置文件

vim hdfs-site.xml

在 configuration 标签中添加如下的内容:

<property>

    <name>dfs.replication</name>

    <value>1</value>

<description>表示数据块的备份数量,不能大于DataNode的数量</description>

</property>

<property>

    <name>dfs.namenode.name.dir</name>

    <value>/export/data/dfs/name</value>

    <description>表示 NameNode 需要存储数据的文件目录</description>

</property>

<property>

    <name>dfs.datanode.data.dir</name>

    <value>/export/data/dfs/data</value>

    <description>表示 DataNode 需要存放数据的文件目录</description>

</property>

添加完后保存退出。

4. 修改 slaves 文件

执行下面的命令将从节点 hadoop02、hadoop03 的机器名字填入到 slaves 文件中:

vim slaves

删除文件中 localhost ,然后添加如下内容:

hadoop02

hadoop03

5. 配置 Hadoop 依赖的 JAVA_HOME

修改配置 hadoop-env.sh :

vim hadoop-env.sh

添加如下的 JAVA_HOME

export JAVA_HOME=/export/servers/jdk1.8.0_301

6. 拷贝配置到 hadoop02 和 hadoop03 上

在 hadoop01 机器中执行如下的命令:

## 将 NameNode 存储的文件目录以及 DataNode 存储的文件目录拷贝到 hadoop02 和 hadoop03 中

scp -r /export/data/dfs root@hadoop02:/export/data/dfs

scp -r /export/data/dfs root@hadoop03:/export/data/dfs

## 将在 hadoop01 中配置好的 hadoop 安装目录拷贝到 hadoop02 和 hadoop03 中

scp -r /export/servers/hadoop-2.7.4 root@hadoop02:/export/servers

scp -r /export/servers/hadoop-2.7.4 root@hadoop03:/export/servers

7. 配置环境变量

在 hadoop01 机器上执行下面的命令,配置 hadoop 的环境变量:

## 修改环境变量

vim ~/.bash_profile

添加如下的内容:

export HADOOP_HOME=/export/servers/hadoop-2.7.4

PATH=$PATH:$HOME/bin:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

然后执行下面的命令,使得环境变量生效:

source ~/.bash_profile

8. 启动验证

到目前为止,HDFS 的配置已经全部结束,接下来我们启动 HDFS 集群,并且验证。

第一次启动 HDFS 之前,需要先对集群做格式化处理,执行下面的命令:

## 格式化 HDFS 集群的 namenode

hdfs namenode -format

注意:格式化只能执行一次,如果你执行了多次,那么集群启动的时候会不正常,这个时候的解决方案就是重新安装。

接下来我们在 hadoop01 节点中执行下面的命令来启动 HDFS 集群:

# 启动hdfs节点

start-dfs.sh

我们分别在 hadoop01 、hadoop02、hadoop03 机器上执行 jps 命令,如果能看到如下的进程,说明机器成功启动:

我们也可以打开浏览器,访问网址:http://hadoop01:50070/。 如果出现下面的界面,也说明 HDFS 安装成功:

9. 停止 HDFS 集群

我们可以在 hadoop01 机器上执行下面的命令来停止 HDFS 集群:

# 停止dfs节点

stop-dfs.sh

Yarn 配置安装

我们现在基于上面 HDFS 的安装配置来配置安装 Yarn,你会发现还是很简单的。

1. 创建 Yarn 存储临时数据的文件目录

在 hadoop01 机器上执行如下命令:

mkdir -p /export/data/yarn/local-dir

2. 修改 yarn-site.xml 配置文件

在 hadoop01 机器上执行如下的命令来修改 yarn-site.xml 文件:

cd /export/servers/hadoop-2.7.4/etc/hadoop

vim yarn-site.xml

在文件中的 configuration 标签中增加如下的内容:

    <property>

        <name>yarn.resourcemanager.hostname</name>

        <value>hadoop01</value>

        <description>表示ResourceManager安装的主机</description>

    </property>

    <property>

        <name>yarn.resourcemanager.address</name>

        <value>hadoop01:8032</value>

        <description>表示ResourceManager监听的端口</description>

    </property>

    <property>

        <name>yarn.nodemanager.local-dirs</name>

        <value>/export/data/yarn/local-dir</value>

        <description>表示nodeManager中间数据存放的地方</description>

    </property>

    <property>

            <name>yarn.nodemanager.resource.memory-mb</name>

            <value>1630</value>

  <description>表示这个NodeManager管理的内存大小</description>

    </property>

    <property>

        <name>yarn.nodemanager.resource.cpu-vcores</name>

            <value>2</value>

  <description>表示这个NodeManager管理的cpu个数</description>

    </property>

3. 拷贝 yarn 相关配置到 hadoop02 和 hadoop03 中

在 hadoop01 机器上执行如下的命令:

scp /export/servers/hadoop-2.7.4/etc/hadoop/yarn-site.xml root@hadoop02:/export/servers/hadoop-2.7.4/etc/hadoop/

scp /export/servers/hadoop-2.7.4/etc/hadoop/yarn-site.xml root@hadoop03:/export/servers/hadoop-2.7.4/etc/hadoop/

scp -r /export/data/yarn/local-dir root@hadoop02:/export/data/

scp -r /export/data/yarn/local-dir root@hadoop03:/export/data/

4. 启动验证

在 hadoop01 机器上执行下面的命令,来启动 yarn :

# 启动 yarn 节点

start-yarn.sh

我们可以在三台机器上执行 jps 来查看 yarn 的相关进程,如下图:

看到以上三个进程,说明 Yarn 集群安装成功。

我们也可以打开浏览器,输入网址:http://hadoop01:8088/来访问 Yarn 集群,如果出现下面的界面,也可以说明集群安装成功:

5. 停止 Yarn 集群

我们可以在 hadoop01 机器上执行下面的命令来停止 Yarn 集群:

# 停止 yarn 节点

stop-yarn.sh

MapReduce 配置安装

在安装 MapReduce 之前,需要先保证 Yarn 集群是停止的,可以通过执行 stop-yarn.sh 来完成。

1. 修改 yarn-site.xml 配置

在 hadoop01 机器上修改 yarn-site.xml 文件:

cd /export/servers/hadoop-2.7.4/etc/hadoop/

vim yarn-site.xml

 添加一个配置项:

<property>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

    <description>为mapreduce应用打开 shuffle 服务</description>

</property>

2. 修改 mapred-site.xml 配置

在 hadoop01 机器上执行如下的命令:

## 创建 mapred-site.xml 文件

cp mapred-site.xml.template mapred-site.xml

然后修改 mapred-site.xml 配置文件:

vim mapred-site.xml

添加如下的配置:

<property>

    <name>mapreduce.framework.name</name>

    <value>yarn</value>

    <description>向yarn申请资源</description>

</property>

3. 将 MapReduce 相关的配置文件同步到 hadoop02 和 hadoop03 上

在 hadoop01 中执行下面的命令:

scp yarn-site.xml mapred-site.xml root@hadoop02:/export/servers/hadoop-2.7.4/etc/hadoop

scp yarn-site.xml mapred-site.xml root@hadoop03:/export/servers/hadoop-2.7.4/etc/hadoop

4. 启动 yarn

在 hadoop01 机器上执行下面的命令

# 启动 yarn 节点

start-yarn.sh

5. 验证 MapReduce

在 hadoop01 上执行下面的命令:

## 准备目录和数据

hadoop fs -mkdir /input

hadoop fs -mkdir /output

hadoop fs -put /export/servers/hadoop-2.7.4/etc/hadoop /input

## 执行 MapReduce 任务

hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.4.jar grep /input/hadoop /output 'dfs[a-z.]+'

------------------------------------------------至此hadoop集群配置完成-----------------------------------------------

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,718评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,683评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,207评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,755评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,862评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,050评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,136评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,882评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,330评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,651评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,789评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,477评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,135评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,864评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,099评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,598评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,697评论 2 351