Hadoop安装部署

2 Hadoop安装搭建

centos7免密登录配置

2.7.5下载地址

2.1 集群规划

集群规划

2.2 上传安装包到/opt/software

2.3 修改配置文件 ★

路径 /opt/software/hadoop-2.7.5/etc/hadoop

2.3.1 修改core-site.xml（hadoop01节点）

<configuration>



<property>

<name>fs.default.name</name>

<value>hdfs://hadoop01:8020</value>

</property>



<property>

<name>hadoop.tmp.dir</name>

<value>/opt/software/hadoop-2.7.5/hadoopDatas/tempDatas</value>

</property>



<property>

<name>io.file.buffer.size</name>

<value>4096</value>

</property>



<property>

<name>fs.trash.interval</name>

<value>10080</value>

</property>

</configuration>

2.3.2 修改hdfs-site.xml（hadoop01节点）

<configuration>

<property>

<name>dfs.namenode.secondary.http-address</name>

<value>hadoop01:50090</value>

</property>



<property>

<name>dfs.namenode.http-address</name>

<value>hadoop01:50070</value>

</property>



<property>

<name>dfs.namenode.name.dir</name>

<value>file:///opt/software/hadoop-2.7.5/hadoopDatas/namenodeDatas,file:///opt/software/hadoop-2.7.5/hadoopDatas/namenodeDatas2</value>

</property>



<property>

<name>dfs.datanode.data.dir</name>

<value>file:///opt/software/hadoop-2.7.5/hadoopDatas/datanodeDatas,file:///opt/software/hadoop-2.7.5/hadoopDatas/datanodeDatas2</value>

</property>



<property>

<name>dfs.namenode.edits.dir</name>

<value>file:///opt/software/hadoop-2.7.5/hadoopDatas/nn/edits</value>

</property>

<property>

<name>dfs.namenode.checkpoint.dir</name>

<value>file:///opt/software/hadoop-2.7.5/hadoopDatas/snn/name</value>

</property>

<property>

<name>dfs.namenode.checkpoint.edits.dir</name>

<value>file:///opt/software/hadoop-2.7.5/hadoopDatas/dfs/snn/edits</value>

</property>



<property>

<name>dfs.replication</name>

<value>3</value>

</property>



<property>

<name>dfs.permissions</name>

<value>false</value>

</property>



<property>

<name>dfs.blocksize</name>

<value>134217728</value>

</property>

</configuration>

2.3.3 修改hadoop-env.sh（hadoop01节点）

# The java implementation to use.

export JAVA_HOME=/opt/software/jdk1.8.0_11

2.3.4 修改mapred-site.xml（hadoop01节点）

拷贝mapred-site.xml模板

<configuration>



<property>

<name>mapreduce.job.ubertask.enable</name>

<value>true</value>

</property>



<property>

<name>mapreduce.jobhistory.address</name>

<value>hadoop01:10020</value>

</property>



<property>

<name>mapreduce.jobhistory.webapp.address</name>

<value>hadoop01:19888</value>

</property>

</configuration>

2.3.5 修改yarn-site.xml（hadoop01节点）

<configuration>



<property>

<name>yarn.resourcemanager.hostname</name>

<value>hadoop01</value>

</property>

<property>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>



<property>

<name>yarn.log-aggregation-enable</name>

<value>true</value>

</property>



<property>

<name>yarn.log-aggregation.retain-seconds</name>

<value>604800</value>

</property>



<property>

<name>yarn.nodemanager.resource.memory-mb</name>

<value>20480</value>

</property>

<property>

<name>yarn.scheduler.minimum-allocation-mb</name>

<value>2048</value>

</property>

<property>

<name>yarn.nodemanager.vmem-pmem-ratio</name>

<value>2.1</value>

</property>

</configuration>

2.3.6 修改mapred-env.sh（hadoop01节点）

export JAVA_HOME=/opt/software/jdk1.8.0_11

2.3.7 修改slaves

修改slaves文件，然后将安装包发送到其他机器，重新启动集群

hadoop01节点执行

vi slaves

hadoop01

hadoop02

hadoop03

2.4 第一台机器执行以下命令

mkdir -p /opt/software/hadoop-2.7.5/hadoopDatas/tempDatas

mkdir -p /opt/software/hadoop-2.7.5/hadoopDatas/namenodeDatas

mkdir -p /opt/software/hadoop-2.7.5/hadoopDatas/namenodeDatas2

mkdir -p /opt/software/hadoop-2.7.5/hadoopDatas/datanodeDatas

mkdir -p /opt/software/hadoop-2.7.5/hadoopDatas/datanodeDatas2

mkdir -p /opt/software/hadoop-2.7.5/hadoopDatas/nn/edits

mkdir -p /opt/software/hadoop-2.7.5/hadoopDatas/snn/name

mkdir -p /opt/software/hadoop-2.7.5/hadoopDatas/dfs/snn/edits

将文件分发到hadoop02 hadoop03

scp -r hadoop-2.7.5 hadoop02:$PWD

scp -r hadoop-2.7.5 hadoop03:$PWD

2.5 配置hadoop环境变量

三台机器都要进行环境变量配置

vi /etc/profile

# hadoop environment

export HADOOP_HOME=/opt/software/hadoop-2.7.5

export PATH=:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

source /etc/profile

2.6 启动集群

要启动Hadoop集群，需要启动HDFS和YARN两个模块。注意：首次启动HDFS时，必须对其进行格式化操作。本质上是清理和准备工作，因为此时HDFS在物理上还是不存在的。

准备启动

第一台机器执行以下命令

bin/hdfs namenode -format （注意：首次启动执行）

sbin/start-dfs.sh （停止sbin/stop-dfs.sh）

start-dfs成功

sbin/start-yarn.sh

start-yarn.sh成功

sbin/mr-jobhistory-daemon.sh start historyserver

历史记录

三个端口查看界面

http://192.168.182.171:50070/explorer.html 查看hdfs

http://192.168.182.171:8088/cluster 查看yarn集群

http://192.168.182.171:19888/jobhistory 查看历史完成的任务