Hadoop2.x分布式集群部署14

三、Hadoop2.x分布式集群配置-取消授权


1.继续配置 Hdfs-site.xml 与  core-site.xml 

1.Hdfs-site.xml

http://hadoop.apache.org/docs/r2.5.2/hadoop-project-dist/hadoop-hdfs/hdfs-default.xml

配置如下(false代表取消授权)

2.core-site.xml 

http://hadoop.apache.org/docs/r2.5.2/hadoop-project-dist/hadoop-common/core-default.xml

第二个改的是用户是kfk

第三个更改的是namenide存放的依赖主目录

2.HDFS重新格式化创建目录和文件

1.创建

mkdir -p data/tmp

2.查看目录下文件

cd data /tmp

pwd

至此,服务配置完成

四、分发到其他各个机器节点

1.先删除机器二和机器三的hadoop

rm -rf hadoop-2.5.0/

2.重新分发
scp -r hadoop-2.5.0/ kfk@bigdata-pro02.kfk.com:/opt/modules/

scp -r hadoop-2.5.0/ kfk@bigdata-pro03.kfk.com:/opt/modules/

3.检验(在第二台和第三台)

more etc/hadoop/core-site.xml


检验无错误,配置正确

五、HDFS启动集群运行测试

1.首先初始化配置

1.把之前所有的服务全部停掉

2.初始化

bin/hdfs namenode –format

2.启动各个节点机器服务:

1.Namenode-1

sbin/hadoop-daemon.sh start namenode

2.Datanode-123

sbin/hadoop-daemon.sh start datanode

3.Resourcemanager-1

sbin/yarn-daemon.sh start resourcemanager

4.Nodemanger-123

sbin/yarn-daemon.sh start nodemanager

5.Jobhistoryserver   historyserver-1

mapreduce日志必须开启

sbin/mr-jobhistory-daemon.sh start historyserver

6.创建了一个名字为kfk的目录

bin/hdfs dfs -mkdir -p /user/kfk/data/ 

3.查看 hdfs 页面和 yarn 页面

1.hdfs

http://bigdata-pro01.kfk.com:50070/

2.yarn

http://bigdata-pro01.kfk.com:8088/

六、YARN运行MapReduce程序测试集群

1.在目录中上传文件wc.input

bin/hdfs dfs -put /opt/datas/wc.input /user/kfk/data/

2.创建数据输出目录

bin/hdfs dfs -mkdir -p /user/kfk/data/output/

3.启动 mapreduce服务

bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jar wordcount /user/kfk/data/wc.input /user/kfk/data/output/1

重点重点重点

如果你之前未将三个虚拟机的时间同步是不能出结果的

所以我们先结合后一个课程: 配置集群内机器时间同步(使用Linux ntp进行)来学习

七、配置集群内机器时间同步(使用Linux ntp进行)

1.在pro01虚拟机上配置ntp

1.sudo rpm -qa|grep ntp

2.sudo service ntpd start

3.sudo chkconfig ntpd on

4.sudo vi /etc/ntp.conf

1.更改的是本机的节点

2.给第二个红框里的每一行加上注释#

3.取消第三个框框里面 sever&fudge的注释#

保存退出

4.sudo service ntpd restart -重启服务

2.同步三台机器时间

第一台pro01:手动配置时间

第二台和第三台pro02\pro03:

1.第一种方法(手动同步)

sudo /usr/sbin/ntpdate bigdata-pro01.kfk.com

缺点:不方便,不准确

2.第二种方法(配置一个脚本)

配置脚本

1.which ntpdate:寻找到ntpdate的目录

2.crontab -e:配置脚本

内容:0-59/10 * * * * /usr/sbin/ntpdate bigdata-pro01.kfk.com

保存退出,两台都如此配置

okok这次我们再次启动mapreduce服务

bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jar wordcount /user/kfk/data/wc.input /user/kfk/data/output/7.2

显示如下则为配置成功


1.查看yarn页面:唯一成功的一次,嘿嘿!
http://bigdata-pro01.kfk.com:8088/cluster

2.查看HDFS页面:没同步时间之前是不能出现文件的
http://bigdata-pro01.kfk.com:50070/explorer.html#/user/kfk/data/output/7.2

3.接下来我们做一个text测试

bin/hdfs dfs -text /user/kfk/data/output/7.2/par*

返回的是对我们最开始编辑的wc.input文件的对数据的个数的统计

由此,我们的hadoop分布式集群的部署基本完成

八、配置集群中主节点到各个机器的SSH无密钥登录

无密银配置主要为转移不需要输入密码,即可
scp -r hadoop-2.5.0/ kfk@bigdata-pro02.kfk.com:/opt/modules/

scp -r hadoop-2.5.0/ kfk@bigdata-pro03.kfk.com:/opt/modules/

1.配置目录

ls -a

cd .ssh/

2.HDFS ssh无秘钥登录

主机1:

清空.ssh目录

主节点 NameNode

1)生成一对公钥与秘钥

ssh-keygen –t  rsa

2)拷贝公钥到各个机器上

ssh-copy-id  bigdata-pro01.kfk.com 

ssh-copy-id  bigdata-pro02.kfk.com 

ssh-copy-id  bigdata-pro03.kfk.com

3)测试ssh连接

ssh  bigdata-pro01.kfk.com

ssh  bigdata-pro02.kfk.com

ssh  bigdata-pro03.kfk.com

4)测试HDFS

sbin/stop-dfs.sh

5)启动HDFS

sbin/start-dfs.sh

3.yarn ssh无秘钥登录

主机2:

清空.ssh目录

主节点 Resourcemanager

1)生成一对公钥与秘钥

ssh-keygen  -–t  rsa

2)拷贝公钥到各个机器上

ssh-copy-id  bigdata-pro01.kfk.com 

ssh-copy-id  bigdata-pro02.kfk.com 

ssh-copy-id  bigdata-pro03.kfk.com

3)测试ssh连接

ssh  bigdata-pro01.kfk.com

ssh  bigdata-pro02.kfk.com

ssh  bigdata-pro03.kfk.com

4)测试Yarn

sbin/stop-yarn.sh

5)启动Yarn

sbin/stsrt-yarn.sh

到此位置hadoop2.x分布式集群部署完成

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容