首先需要准备四台Linux虚拟机,搭建步骤与伪分布式基本一致,同样部分不再详细描述。
1. 四台均安装jdk,并配置环境变量
2. 给四个节点设置时间同步
[root@node01 software]# yum install ntpdate -y
[root@node01 software]# ntpdate ntp1.aliyun.com
3. 分发ssh密钥,先确保每个节点都有.ssh目录,如果没有可以先登陆一下自己,后将主节点公钥分发到各个从节点
[root@node01 .ssh]# scp id_dsa.pub node02:`pwd`/node01.pub
4. 将主节点公钥追加到各从节点认证文件中
[root@node02 .ssh]# cat node01.pub >> authorized_keys
5. 在主节点上安装配置Hadoop,安装方法参考伪分布式
6. 修改hdfs-site.xml
[root@node01 hadoop]# vi hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>node02:50090</value>
</property>
</configuration>
7. 修改slaves
[root@node01 hadoop]# vi slaves
node02
node03
node04
8. 将Hadoop安装目录分发到从节点
[root@node01 opt]# scp -r ycyz/ node02:`pwd`
9. 将/etc/profile分发到各从节点
[root@node01 opt]# scp /etc/profile node02:/etc/
分发后所有节点均需执行 source /etc/profile
10. 在主节点上格式化集群
[root@node01 ~]# hdfs namenode -format
11. 启动集群
[root@node01 ~]# start-dfs.sh