三、Hadoop2.x分布式集群配置-取消授权

1.继续配置 Hdfs-site.xml 与 core-site.xml

1.Hdfs-site.xml

http://hadoop.apache.org/docs/r2.5.2/hadoop-project-dist/hadoop-hdfs/hdfs-default.xml

配置如下（false代表取消授权）

2.core-site.xml

http://hadoop.apache.org/docs/r2.5.2/hadoop-project-dist/hadoop-common/core-default.xml

第二个改的是用户是kfk

第三个更改的是namenide存放的依赖主目录

2.HDFS重新格式化创建目录和文件

1.创建

mkdir -p data/tmp

2.查看目录下文件

cd data /tmp

pwd

至此，服务配置完成

四、分发到其他各个机器节点

1.先删除机器二和机器三的hadoop

rm -rf hadoop-2.5.0/

2.重新分发
scp -r hadoop-2.5.0/ kfk@bigdata-pro02.kfk.com:/opt/modules/

scp -r hadoop-2.5.0/ kfk@bigdata-pro03.kfk.com:/opt/modules/

3.检验（在第二台和第三台）

more etc/hadoop/core-site.xml

检验无错误，配置正确

五、HDFS启动集群运行测试

1.首先初始化配置

1.把之前所有的服务全部停掉

2.初始化

bin/hdfs namenode –format

2.启动各个节点机器服务：

1.Namenode-1

sbin/hadoop-daemon.sh start namenode

2.Datanode-123

sbin/hadoop-daemon.sh start datanode

3.Resourcemanager-1

sbin/yarn-daemon.sh start resourcemanager

4.Nodemanger-123

sbin/yarn-daemon.sh start nodemanager

5.Jobhistoryserver historyserver-1

mapreduce日志必须开启

sbin/mr-jobhistory-daemon.sh start historyserver

6.创建了一个名字为kfk的目录

bin/hdfs dfs -mkdir -p /user/kfk/data/

3.查看 hdfs 页面和 yarn 页面

1.hdfs

http://bigdata-pro01.kfk.com:50070/

2.yarn

http://bigdata-pro01.kfk.com:8088/

六、YARN运行MapReduce程序测试集群

1.在目录中上传文件wc.input

bin/hdfs dfs -put /opt/datas/wc.input /user/kfk/data/

2.创建数据输出目录

bin/hdfs dfs -mkdir -p /user/kfk/data/output/

3.启动 mapreduce服务

bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jar wordcount /user/kfk/data/wc.input /user/kfk/data/output/1

重点重点重点

如果你之前未将三个虚拟机的时间同步是不能出结果的

所以我们先结合后一个课程：配置集群内机器时间同步（使用Linux ntp进行）来学习

七、配置集群内机器时间同步（使用Linux ntp进行）

1.在pro01虚拟机上配置ntp

1.sudo rpm -qa|grep ntp

2.sudo service ntpd start

3.sudo chkconfig ntpd on

4.sudo vi /etc/ntp.conf

1.更改的是本机的节点

2.给第二个红框里的每一行加上注释#

3.取消第三个框框里面 sever&fudge的注释#

保存退出

4.sudo service ntpd restart -重启服务

2.同步三台机器时间

第一台pro01：手动配置时间

第二台和第三台pro02\pro03：

1.第一种方法（手动同步）

sudo /usr/sbin/ntpdate bigdata-pro01.kfk.com

缺点：不方便，不准确

2.第二种方法（配置一个脚本）

配置脚本

1.which ntpdate：寻找到ntpdate的目录

2.crontab -e：配置脚本

内容：0-59/10 * * * * /usr/sbin/ntpdate bigdata-pro01.kfk.com

保存退出，两台都如此配置

okok这次我们再次启动mapreduce服务

bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jar wordcount /user/kfk/data/wc.input /user/kfk/data/output/7.2

显示如下则为配置成功

1.查看yarn页面：唯一成功的一次，嘿嘿！
http://bigdata-pro01.kfk.com:8088/cluster

2.查看HDFS页面：没同步时间之前是不能出现文件的
http://bigdata-pro01.kfk.com:50070/explorer.html#/user/kfk/data/output/7.2

3.接下来我们做一个text测试

bin/hdfs dfs -text /user/kfk/data/output/7.2/par*

返回的是对我们最开始编辑的wc.input文件的对数据的个数的统计

由此，我们的hadoop分布式集群的部署基本完成

八、配置集群中主节点到各个机器的SSH无密钥登录

无密银配置主要为转移不需要输入密码，即可
scp -r hadoop-2.5.0/ kfk@bigdata-pro02.kfk.com:/opt/modules/

scp -r hadoop-2.5.0/ kfk@bigdata-pro03.kfk.com:/opt/modules/

1.配置目录

ls -a

cd .ssh/

2.HDFS ssh无秘钥登录

主机1：

清空.ssh目录

主节点 NameNode

1)生成一对公钥与秘钥

ssh-keygen –t rsa

2)拷贝公钥到各个机器上

ssh-copy-id bigdata-pro01.kfk.com

ssh-copy-id bigdata-pro02.kfk.com

ssh-copy-id bigdata-pro03.kfk.com

3)测试ssh连接

ssh bigdata-pro01.kfk.com

ssh bigdata-pro02.kfk.com

ssh bigdata-pro03.kfk.com

4)测试HDFS

sbin/stop-dfs.sh

5)启动HDFS

sbin/start-dfs.sh

3.yarn ssh无秘钥登录

主机2：

清空.ssh目录

主节点 Resourcemanager

1)生成一对公钥与秘钥

ssh-keygen -–t rsa

2)拷贝公钥到各个机器上

ssh-copy-id bigdata-pro01.kfk.com

ssh-copy-id bigdata-pro02.kfk.com

ssh-copy-id bigdata-pro03.kfk.com

3)测试ssh连接

ssh bigdata-pro01.kfk.com

ssh bigdata-pro02.kfk.com

ssh bigdata-pro03.kfk.com

4)测试Yarn

sbin/stop-yarn.sh

5)启动Yarn

sbin/stsrt-yarn.sh

Hadoop2.x分布式集群部署14

Hadoop2.x分布式集群部署14

三、Hadoop2.x分布式集群配置-取消授权

1.继续配置 Hdfs-site.xml 与 core-site.xml

2.HDFS重新格式化创建目录和文件

四、分发到其他各个机器节点

五、HDFS启动集群运行测试

1.首先初始化配置

2.启动各个节点机器服务：

3.查看 hdfs 页面和 yarn 页面

六、YARN运行MapReduce程序测试集群

重点重点重点

如果你之前未将三个虚拟机的时间同步是不能出结果的

所以我们先结合后一个课程：配置集群内机器时间同步（使用Linux ntp进行）来学习

七、配置集群内机器时间同步（使用Linux ntp进行）

okok这次我们再次启动mapreduce服务

八、配置集群中主节点到各个机器的SSH无密钥登录

到此位置hadoop2.x分布式集群部署完成

推荐阅读更多精彩内容

Hadoop2.x分布式集群部署14

三、Hadoop2.x分布式集群配置-取消授权

1.继续配置 Hdfs-site.xml 与 core-site.xml

2.HDFS重新格式化创建目录和文件

四、分发到其他各个机器节点

五、HDFS启动集群运行测试

1.首先初始化配置

2.启动各个节点机器服务：

3.查看 hdfs 页面和 yarn 页面

六、YARN运行MapReduce程序测试集群

重点重点重点

如果你之前未将三个虚拟机的时间同步是不能出结果的

所以我们先结合后一个课程： 配置集群内机器时间同步（使用Linux ntp进行）来学习

七、配置集群内机器时间同步（使用Linux ntp进行）

okok这次我们再次启动mapreduce服务

八、配置集群中主节点到各个机器的SSH无密钥登录

到此位置hadoop2.x分布式集群部署完成

推荐阅读更多精彩内容

所以我们先结合后一个课程：配置集群内机器时间同步（使用Linux ntp进行）来学习