环境:VMware pro14
虚拟机配置:内存2G 硬盘100G 处理器1(每个处理器4核)centos7
centos7虚拟机安装 分区选择默认自动分
basecentos7 https://blog.csdn.net/paotianzhou/article/details/97923351
虚拟机复制要修改mac地址和ip地址
centos7
找到网关地址 编辑 -> 虚拟网络编辑器
网关 192.168.20.2
本机vmnet8配置固定地址
00:0C:29:DB:E6:B1
CentOS 7.0虚拟机更改MAC地址和ip地址
vi /etc/sysconfig/network-scripts/ifcfg-xx
修改完重启生效
hosts
192.168.20.11 node02
192.168.20.12 node01
192.168.20.133 node03
secure CRT 连接三个节点,上传安装文件
alt+p 进入sftp> cd 想放置的路径 put 文件本地地址
解压jdk 安装
tar -zxvf jdk-8u144-linux-x64.tar.gz -C /usr/local/
配置环境变量
vi /etc/profile
export JAVA_HOME=/usr/local/jdk1.8.0_144
export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/lib:$JAVA_HOME/lib/dt/jar:$JAVA_HOME/lib/tools.jar
export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH
source /etc/profile
java、javac、java -version检验安装情况
建立hadoop用户
sudo useradd -m hadoop -s /bin/bash
设密码
sudo passwd hadoop
将hadoop加入用户组
usermod -g root hadoop
id hadoop
(为了后面方便)
root用户登录,进入到/etc目录。
执行chmod u+w /etc/sudoers给sudoers文件增加write权限。
执行vi /etc/sudoers 找到root ALL=(ALL) ALL这一行,一下面增加hadoop ALL=(ALL) ALL(注:hadoop为普通用户的用户名)
5,执行命令chmod u-w /etc/sudoers,撤销write权限。,
6,登录hadoop用户,进行测试。比如sudo cd /root 如果成功进入 /root目录说明配置成功
)
su hadoop
切换到hadoop用户
ssh免密登录
ssh-keygen -t rsa -P ''
cat .ssh/id_rsa.pub >> .ssh/authorized_keys
chmod 600 .ssh/authorized_keys
把三个节点的 authorized_keys 的不同内容复制到一个authorized_keys里,再粘贴到每个节点的 authorized_keys 里
vi .ssh/authorized_keys
每台节点进行验证(第一次需要输入yesÏ)
ssh node01 date
ssh node02 date
ssh node03 date
同步时间(可选)
切换到root
yum -y install ntp
chkconfig ntpd on && service ntpd start
date
sudo vi /etc/profile
export HADOOP_HOME=/home/hadoop/hadoop-2.7.3
export PATH={HADOOP_HOME}/sbin:$PATH
source /etc/profile
去压缩包所在的目录,解压hadoop
tar -zxvf hadoop-2.7.3.tar.gz -C /home/hadoop
节点规划:
node01 namenode、datanode
node02 datanode
node03 datanode
每个节点
cd /home/hadoop/hadoop-2.7.3/etc/hadoop/
修改 core-site.xml
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://node01:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/home/hadoop/hadoop-2.7.3/data/tmp</value>
</property>
</configuration>
修改 hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
</configuration>
cp mapred-site.xml.template mapred-site.xml
修改 mapred-site.xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
修改 yarn-site.xml
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>node01</value>
</property>
</configuration>
修改 slaves
node01
node02
node03
(单虚拟机安装好jdk,hadoop,配好环境变量这种相同的配置,复制整个虚拟机文件夹,然后进去改各自不同的配置)
启动
初始化 namenode (第一次需初始化或者删掉 temp.dir 的内容也初始化)
cd /home/hadoop/hadoop-2.7.3/bin
hdfs namenode -format
start-dfs.sh
start-yarn.sh
(或者直接start-all.sh,伪分布式)
查看浏览器界面
namenode 后台 http://192.168.20.133:50070/
yarn 后台 http://192.168.20.133:8088/
(浏览器页面打不开去检查一下namenode的防火墙状态,防火墙关了才能访问
[root@node01 hadoop]# firewall-cmd --state
running
[root@node01 hadoop]# systemctl stop firewalld.service
[root@node01 hadoop]# firewall-cmd --state
not running
[root@node01 hadoop]# systemctl disable firewalld.service
(误以为复制虚拟机之前关了防火墙,而且因为互相之间能ping通所以没想到防火墙))
运行word count
创建路径
输入 hadoop fs -mkdir -p /input
输出 hadoop fs -mkdir -p /output
上传文件()
[hadoop@node01 test] hadoop fs -put 2.txt /input
put: `/data/wordcount/2.txt': File exists
执行wordcount程序(注:输入文件夹要有input,不然运行会提示找不到input)
hadoop jar /home/hadoop/hadoop-2.7.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar wordcount input output
(出现问题:一直卡在 Running job: job_1594537XXX,还报错java.net.NoRouteToHostException: No Route to Host from node01/192.168.20.133 to node02:38072 failed on socket timeout exception:,好像是连网连不上node02,后来发现node02 node03的防火墙开着,关掉之后可以执行)
hdfs dfs -cat output/*
启用jobhistory
可以更好的查看job的历史记录和管理job的日志。
文件名 mapred-env.sh
export HADOOP_MAPRED_LOG_DIR="/home/hadoop/logs/mapred"
export HADOOP_MAPRED_PID_DIR="/home/hadoop/data/pid"
修改 mapred-site.xml
<property>
<name>mapreduce.jobhistory.address</name>
<value>node01:10020</value>
</property>
修改 yarn-site.xml 做日志聚合,开启后job的日志不再存到node本地,而是上传到hdfs
<property>
<name>yarn.log-aggregation-enable</name>
<value>true</value>
</property>
重启集群
mr-jobhistory-daemon.sh start historyserver
jps查看 30786 JobHistoryServer
浏览器http://192.168.20.133:19888/ 或者从 application 页的 History 跳转
默认情况下,日志会分散在各个工作的datanode,查看非常麻烦;配置了日志聚合后则会上传到hdfs,各节点本地的会被删除,可以点击上图的 Job ID ,然后 ApplicationMaster -> logs 即可看到聚合后的日志或通过命令行查看聚合日志
yarn logs -applicationId [application id]
停止集群
stop-yarn.sh
stop-dfs.sh