所用软件 版本号
hadoop hadoop-2.7.3.tar.gz
1、Hadoop安装
(1) 创建对应工作目录/usr/hadoop并解压 hadoop 到相应目录:
mkdir -p /usr/hadoop
tar -zxvf /opt/soft/hadoop-2.7.3.tar.gz -C /usr/hadoop/
(2)配置环境变量:
vim /etc/profile
export HADOOP_HOME=/usr/hadoop/hadoop-2.7.3
export CLASSPATH=$CLASSPATH:$HADOOP_HOME/lib
export PATH=$PATH:$HADOOP_HOME/bin #(当然具体的工作路径视情况而定)
使用命令使 profile 生效:
source /etc/profile
(3)编辑 hadoop 环境配置文件hadoop-env.sh
exportJAVA_HOME=/usr/java/jdk1.8.0_171
(4)编辑core-site.xml文件
<configuration><property> <name>fs.default.name</name> <value>hdfs://master:9000</value></property><property> <name>hadoop.tmp.dir</name> <value>/usr/hadoop/hadoop-2.7.3/hdfs/tmp</value><description>A base for other temporarydirectories.</description></property><property> <name>io.file.buffer.size</name> <value>131072</value></property><property> <name>fs.checkpoint.period</name> <value>60</value></property><property> <name>fs.checkpoint.size</name> <value>67108864</value></property></configuration>
(5)编辑yarn-site.xml文件
<configuration><property> <name>yarn.resourcemanager.address</name> <value>master:18040</value> </property> <property> <name>yarn.resourcemanager.scheduler.address</name> <value>master:18030</value> </property> <property> <name>yarn.resourcemanager.webapp.address</name> <value>master:18088</value> </property> <property> <name>yarn.resourcemanager.resource-tracker.address</name> <value>master:18025</value> </property> <property> <name>yarn.resourcemanager.admin.address</name> <value>master:18141</value> </property> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <property> <name>yarn.nodemanager.auxservices.mapreduce.shuffle.class</name> <value>org.apache.hadoop.mapred.ShuffleHandler</value> </property> <!-- Site specific YARNconfiguration properties --> </configuration>
(6)编写 slaves 文件
(7)编写master 文件
(8)hdfs-site.xml
<configuration><property> <name>dfs.replication</name> <value>2</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>file:/usr/hadoop/hadoop-2.7.3/hdfs/name</value> <final>true</final></property> <property> <name>dfs.datanode.data.dir</name> <value>file:/usr/hadoop/hadoop-2.7.3/hdfs/data</value> <final>true</final> </property> <property> <name>dfs.namenode.secondary.http-address</name> <value>master:9001</value> </property> <property> <name>dfs.webhdfs.enabled</name> <value>true</value> </property> <property> <name>dfs.permissions</name> <value>false</value> </property></configuration>
(9)修改mapred-site.xml,首先将模板文件复制为 xml 文件,对其进行编辑:
cpmapred-site.xml.template mapred-site.xml
<property> <name>mapreduce.framework.name</name> <value>yarn</value> </property>
(10)分发 hadoop:
scp -r /usr/hadoop root@slave1:/usr/
scp -r /usr/hadoop root@slave2:/usr/
注意:slave各个 节点上还需要配置环境变量,参考 hadoop 中第(2)。
Vi /etc/profile
export HADOOP_HOME=/usr/hadoop/hadoop-2.7.3
export CLASSPATH=$CLASSPATH:$HADOOP_HOME/lib
exportPATH=$PATH:$HADOOP_HOME/bin
source /etc/profile
(11)master 中格式化hadoop(注意在Hadoop路径下,本文也就是 /usr/hadoop/hadoop-2.7.3)
hadoop namenode -format
sbin/start-all.sh #(可以远程启动子节点的Hadoop,子节点可以不用任何操作)
(12)各个节点的进程如下:(slave子节点的进程都一样)
(13)同时可以访问主节点 master:50070(注意关闭防火墙哦!50070 是 hdfs 的 web 管理页面)
一次完整的大数据环境搭建目录:
说明:此系列文章是为了记录本人学习过程,以此来加深理解,希望各位大神路过!!