Hadoop（第1篇）：完全分布式安装

要求

在10.110.18.216~10.110.18.218三台主机安装hadoop环境

前提

java环境：jdk 8
+hadoop版本： 2.6.5

免密登录
本机免密登录

在10.110.18.216、10.110.18.217、10.110.18.218三台主机分别修改/etc/hosts

10.110.18.216   indata-10-110-18-216.indata.com   indata-10-110-18-216
10.110.18.217   indata-10-110-18-217.indata.com   indata-10-110-18-217
10.110.18.218   indata-10-110-18-218.indata.com   indata-10-110-18-218

修改hostname，是其分别为indata-10-110-18-216、indata-10-110-18-217、indata-10-110-18-218

其中，10.110.18.216为master，10.110.18.217/10.110.18.218位slaves

生成公钥-私钥

ssh-keygen -t rsa

将其追加到authorized_keys

cat ~/.ssh/id_rsa.pub >> authorized_keys

赋予权限

chmod 600 .ssh/authorized_keys

验证本机免密登录

ssh indata-10-110-18-216

10.110.18.217/10.110.18.218做相同操作。

master免密登录slaves

将master主机的id_rsa.pub拷贝到slaves，并追加

scp root@10.110.18.216:/root/.ssh/id_rsa.pub /root/
cat id_rsa.pub >> ~/.ssh/authorized_keys
rm -rf /root/id_ras.pub

在master主机测试

ssh indata-10-110-18-217

slaves免密登录master

将slave主机的公钥拷贝到master主机

scp root@10.110.18.217/root/.ssh/id_rsa.pub /root
cat /root/id_rsa.pub >> /root/.ssh/authorized_keys

在slave主机测试

ssh indata-10-110-18-216

master主机环境搭建
解压hadoop压缩包

tar -xzvf  hadoop-2.6.5.tar.gz    -C /data

配置环境变量

# Hadoop
export HADOOP_HOME=/data/hadoop-2.6.5
export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

激活环境变量

source /etc/profile

配置core-site.xml

指定NameNode的IP和端口，指定hadoop数据存储的临时文件夹

<configuration>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/data/hadoop-2.6.5/tmp</value>
        <description>Abase for other temporary directories.</description>
    </property>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://10.110.18.216:8020</value>
    </property>
</configuration>

如果没有配置hadoop.tmp.dir，则系统默认为/tmp/hadoop。该目录在每次重启主机时都会删掉，必须重新执行format，否则出错
配置hdfs-site.xml

指定HDFS备份为3，指定namenode节点文件存储目录，指定datanode节点文件存储目录

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>3</value>
    </property>
    <property>
        <name>dfs.name.dir</name>
        <value>/data/hadoop-2.6.5/hdfs/name</value>
    </property>
    <property>
        <name>dfs.data.dir</name>
        <value>/data/hadoop-2.6.5/hdfs/data</value>
    </property>
</configuration>

配置mapred-site.xml

拷贝mapred-site.xml.template，并修改

cp mapred-site.xml.template mapred-site.xml
<configuration>
  <property>
      <name>mapreduce.framework.name</name>
      <value>yarn</value>
  </property>
   <property>
      <name>mapred.job.tracker</name>
      <value>http://10.110.18.216:9001</value>
  </property>
</configuration>

配置yarn-site.xml

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>indata-10-110-18-216</value>
    </property>
</configuration>

配置masters

修改/data/hadoop-2.6.5/etc/hadoop/masters

indata-10-110-18-216

配置slaves

修改/data/hadoop-2.6.5/etc/hadoop/slaves

indata-10-110-18-217
indata-10-110-18-218

slaves环境搭建
将master安装环境拷贝到slave主机

删除slaves配置

rm -rf /data/hadoop-2.6.5/etc/hadoop/slaves

启动集群
在master主机，格式化hdfs文件系统

hdfs namenode -format

如果出现datanode无法启动问题，可以删除/data/hadoop-2.6.5/tmp和/data/hadoop-2.6.5/hdfs目录，并重新格式化
启动hadoop

sbin/start-all.sh

通过jps命令查看运行情况

# master
1040 SecondaryNameNode
4201 Jps
1211 ResourceManager
828 NameNode
# slave
6202 DataNode
6315 NodeManager
6622 Jps

查看hadoop集群状态

hadoop dfsadmin -report

通过浏览器访问hdfs

http://10.110.18.216:50070

通过浏览器访问yarn

http://10.110.18.216:8088

Hadoop（第1篇）：完全分布式安装

推荐阅读更多精彩内容