一、准备环境
1.1安装
1)准备若干台机器
2)安装配置系统:CentOS-7.0-1406-x86_64-DVD.iso
3)安装JAVA环境:jdk-8u131-linux-x64.gz
4)hadoop2.7.2:hadoop-2.7.2.tar.gz
1.2网络配置
ifconfig -a 查看各台机器的ip,相互ping一下,看是否可以ping通。
记录个台机器的ip。
二、配置CentOS
2.1配置hosts
# vi /etc/hosts
编辑内容:
202.196.37.40 master
202.196.37.41 slave1
202.196.37.42 slave2
202.196.37.43 slave3
.......ip地址替换为真实ip
2.2关闭防火墙
# systemctl status firewalld.service #检查防火墙状态
# systemctl stop firewalld.service #关闭防火墙
# systemctl disable firewalld.service #禁止开机启动防火墙
2.3时间同步
# yum install -y ntp #安装ntp服务
# ntpdate cn.pool.ntp.org #同步网络时间
2.4安装配置jdk
上传jdk-8u131-linux-x64.gz 安装包到root根目录
# mkdir /usr/java
# tar -zxvf jdk-8u131-linux-x64.gz -C/usr/java/
# rm -rfjdk-8u131-linux-x64.gz
2.5各个主机之间复制jdk
# scp -r /usr/java slave1:/usr
# scp -r /usr/java slave2:/usr
# scp -r /usr/java slave3:/usr
.......
2.6配置各个主机jdk环境变量
# vi /etc/profile
编辑内容
export JAVA_HOME=/usr/java/jdk1.8.0_91
export PATH=$JAVA_HOME/bin:$PATH
exportCLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
# source/etc/profile #使配置文件生效
# java -version #查看java版本
2.7配置ssh无密钥访问
分别在各个主机上检查ssh服务状态:
# systemctl status sshd.service #检查ssh服务状态
# yum install openssh-server openssh-clients #安装ssh服务,如果已安装,则不用执行该步骤
# systemctl start sshd.service #启动ssh服务,如果已安装,则不用执行该步骤
分别在各个主机上生成密钥
# ssh-keygen -t rsa #生成密钥
在slave1上
cp ~/.ssh/id_rsa.pub ~/.ssh/slave1.id_rsa.pub
scp ~/.ssh/slave1.id_rsa.pub master:~/.ssh
在slave2上
cp ~/.ssh/id_rsa.pub ~/.ssh/slave2.id_rsa.pub
scp ~/.ssh/slave2.id_rsa.pub master:~/.ssh
以此类推。
在master上
cd ~/.ssh
cat id_rsa.pub >> authorized_keys
cat slave1.id_rsa.pub >>authorized_keys
cat slave2.id_rsa.pub >>authorized_keys
scp authorized_keys slave1:~/.ssh
scp authorized_keys slave2:~/.ssh
scp authorized_keys slave3:~/.ssh
三、安装配置hadoop
3.1安装hadoop
上传hadoop-2.7.2.tar.gz安装包到root根目录
# tar -zxvf hadoop-2.7.2.tar.gz -C /usr
# rm -rf hadoop-2.7.2.tar.gz
# mkdir /usr/hadoop-2.7.2/tmp
# mkdir /usr/hadoop-2.7.2/logs
# mkdir /usr/hadoop-2.7.2/hdf
# mkdir/usr/hadoop-2.7.2/hdf/data
# mkdir /usr/hadoop-2.7.2/hdf/name
在hadoop-2.7.2/etc/hadoop目录下
配置hadoop
修改hadoop-env.sh文件
增加 export JAVA_HOME=/usr/java/jdk1.8.0_91
修改yarn-env.sh
export JAVA_HOME=/usr/java/jdk1.8.0_91
修改slaves
配置内容:
删除:localhost
添加:
slave1
slave2
slave3
修改core-site.xml
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://master:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>file:/data/hadoop/hadoop-2.7.4/tmp</value>
</property>
</configuration>
修改hdfs-site.xml
<configuration>
<property>
<name>dfs.datanode.data.dir</name>
<value>/data/hadoop/hadoop-2.7.4/hdf/data</value>
<final>true</final>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>/data/hadoop/hadoop-2.7.4/hdf/name</value>
<final>true</final>
</property>
</configuration>
修改mapred-site.xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>mapreduce.jobhistory.address</name>
<value>master:10020</value>
</property>
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>master:19888</value>
</property>
</configuration>
修改yarn-site.xml
<configuration>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.mapred.ShuffleHandler</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.resourcemanager.address</name>
<value>master:8032</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>master:8030</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>master:8031</value>
</property>
<property>
<name>yarn.resourcemanager.admin.address</name>
<value>master:8033</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>master:8088</value>
</property>
</configuration>
各个主机之间复制hadoop
# scp -r /data/hadoop/hadoop-2.7.4 slave1:/data/hadoop
# scp -r /data/hadoop/hadoop-2.7.4 slave2:/data/hadoop
# scp -r /data/hadoop/hadoop-2.7.4 slave3:/data/hadoop
各个主机配置hadoop环境变量
# vi /etc/profile
编辑内容:
export HADOOP_HOME=/data/hadoop/hadoop-2.7.4
export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
export HADOOP_LOG_DIR=/data/hadoop/hadoop-2.7.4/logs
export YARN_LOG_DIR=$HADOOP_LOG_DIR
# source /etc/profile #使配置文件生效
3.2启动hadoop
格式化namenode
# cd /data/hadoop/hadoop-2.7.4/sbin
# hdfs namenode -format
启动
# cd /data/hadoop/hadoop-2.7.4/sbin
# start-all.sh
检查进程
# jps
master主机包含ResourceManager、SecondaryNameNode、NameNode等,则表示启动成功,例如
2212 ResourceManager
2484 Jps
1917 NameNode
2078 SecondaryNameNode
![Uploading image_385194.png . . .]
各个slave主机包含DataNode、NodeManager等,则表示启用成功,例如
17153 DataNode
17334 Jps
17241 NodeManager
运行wordcount
由于hadoop自带wordcount例程所以就可以直接调用了
在启动hadoop之后
我们可以通过一下命令来对hdfs中的文件进行操作
# hadoop fs -mkdir input
# hadoop fs -put input.txt /input
# hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount /input /output/
出现以上结果就说明已经成功了
查看输出目录
hadoop fs -ls /output
查看输出结果
hadoop fs -cat /output/part-r-00000
出现类似以下结果
部分转自http://blog.csdn.net/sinat_30569973/article/details/52232850