要求
在10.110.18.216~10.110.18.218三台主机安装hadoop环境
前提
- java环境:jdk 8
+hadoop版本: 2.6.5
免密登录
本机免密登录
在10.110.18.216、10.110.18.217、10.110.18.218三台主机分别修改/etc/hosts
10.110.18.216 indata-10-110-18-216.indata.com indata-10-110-18-216
10.110.18.217 indata-10-110-18-217.indata.com indata-10-110-18-217
10.110.18.218 indata-10-110-18-218.indata.com indata-10-110-18-218
修改hostname,是其分别为indata-10-110-18-216、indata-10-110-18-217、indata-10-110-18-218
其中,10.110.18.216为master,10.110.18.217/10.110.18.218位slaves
生成公钥-私钥
ssh-keygen -t rsa
将其追加到authorized_keys
cat ~/.ssh/id_rsa.pub >> authorized_keys
赋予权限
chmod 600 .ssh/authorized_keys
验证本机免密登录
ssh indata-10-110-18-216
10.110.18.217/10.110.18.218做相同操作。
master免密登录slaves
将master主机的id_rsa.pub拷贝到slaves,并追加
scp root@10.110.18.216:/root/.ssh/id_rsa.pub /root/
cat id_rsa.pub >> ~/.ssh/authorized_keys
rm -rf /root/id_ras.pub
在master主机测试
ssh indata-10-110-18-217
slaves免密登录master
将slave主机的公钥拷贝到master主机
scp root@10.110.18.217/root/.ssh/id_rsa.pub /root
cat /root/id_rsa.pub >> /root/.ssh/authorized_keys
在slave主机测试
ssh indata-10-110-18-216
master主机环境搭建
解压hadoop压缩包
tar -xzvf hadoop-2.6.5.tar.gz -C /data
配置环境变量
# Hadoop
export HADOOP_HOME=/data/hadoop-2.6.5
export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
激活环境变量
source /etc/profile
配置core-site.xml
指定NameNode的IP和端口,指定hadoop数据存储的临时文件夹
<configuration>
<property>
<name>hadoop.tmp.dir</name>
<value>/data/hadoop-2.6.5/tmp</value>
<description>Abase for other temporary directories.</description>
</property>
<property>
<name>fs.defaultFS</name>
<value>hdfs://10.110.18.216:8020</value>
</property>
</configuration>
如果没有配置hadoop.tmp.dir,则系统默认为/tmp/hadoop。该目录在每次重启主机时都会删掉,必须重新执行format,否则出错
配置hdfs-site.xml
指定HDFS备份为3,指定namenode节点文件存储目录,指定datanode节点文件存储目录
<configuration>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
<property>
<name>dfs.name.dir</name>
<value>/data/hadoop-2.6.5/hdfs/name</value>
</property>
<property>
<name>dfs.data.dir</name>
<value>/data/hadoop-2.6.5/hdfs/data</value>
</property>
</configuration>
配置mapred-site.xml
拷贝mapred-site.xml.template,并修改
cp mapred-site.xml.template mapred-site.xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>mapred.job.tracker</name>
<value>http://10.110.18.216:9001</value>
</property>
</configuration>
配置yarn-site.xml
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>indata-10-110-18-216</value>
</property>
</configuration>
配置masters
修改/data/hadoop-2.6.5/etc/hadoop/masters
indata-10-110-18-216
配置slaves
修改/data/hadoop-2.6.5/etc/hadoop/slaves
indata-10-110-18-217
indata-10-110-18-218
slaves环境搭建
将master安装环境拷贝到slave主机
删除slaves配置
rm -rf /data/hadoop-2.6.5/etc/hadoop/slaves
启动集群
在master主机,格式化hdfs文件系统
hdfs namenode -format
如果出现datanode无法启动问题,可以删除/data/hadoop-2.6.5/tmp和/data/hadoop-2.6.5/hdfs目录,并重新格式化
启动hadoop
sbin/start-all.sh
通过jps命令查看运行情况
# master
1040 SecondaryNameNode
4201 Jps
1211 ResourceManager
828 NameNode
# slave
6202 DataNode
6315 NodeManager
6622 Jps
查看hadoop集群状态
hadoop dfsadmin -report
通过浏览器访问hdfs
http://10.110.18.216:50070
通过浏览器访问yarn
http://10.110.18.216:8088