-》1、指定Java的安装路径,
配置hadoop-env.sh, mapred-env.sh, yarn-env.sh文件
export JAVA_HOME=/opt/modules/jdk1.7.0_67
-》2、配置用户自定义的文件,core、hdfs、yarn、mapred
假设为3台机器的集群,其规划如下:
则根据此图去配置【core、hdfs、yarn、mapred】-site.xml,以及salves
先将一台的hadoop配置好后,用ssh将此文件夹分发到其他机器上
如:
$ scp -r hadoop-2.5.0/ hadoop-senior03.ibeifeng.com:/opt/app/
之后,格式化namenode
-》$ bin/hdfs namenode -format
如果格式化没有报错,也就差不多是搭建完成了,那么根据集群规划那张表,将各个机器上的服务开启
如:第一台机器,共有四种服务namenode, datanode, nodemanager, historyserver其命令如下:
sbin/hadoop-daemon.sh start namenode
sbin/hadoop-daemon.sh start datanode
sbin/yarn-daemon.sh start nodemanager
sbin/mr-jobhistory-daemon.sh start historyserver
最后通过jps查看各服务的进程(如下所示):
同样,开启其他两个机器上的服务,jps进程如下所示
显然,这和集群规划那张表上所列的服务清单是一致的。
如果,不放心的话,可以上传一些文件
bin/hdfs dfs -put /opt/datas/xxx.txt tmp/
并且用一个wordcount程序去跑一下
如
bin/yarn jar jars/mr_wc.jar /user/xx/tmp/xxx.txt /user/xxx/tmp/outpur.跑程序时候要注意,mr_wc程序中的输入路径和输出路径要设定好,注意检查,不要倒在最后一下上。