一次完整的大数据环境搭建——Hadoop安装

所用软件版本号

hadoop hadoop-2.7.3.tar.gz

1、Hadoop安装

（1）创建对应工作目录/usr/hadoop并解压 hadoop 到相应目录：

mkdir -p /usr/hadoop

tar -zxvf /opt/soft/hadoop-2.7.3.tar.gz -C /usr/hadoop/

（2）配置环境变量：

vim /etc/profile

export HADOOP_HOME=/usr/hadoop/hadoop-2.7.3

export CLASSPATH=$CLASSPATH:$HADOOP_HOME/lib

export PATH=$PATH:$HADOOP_HOME/bin #（当然具体的工作路径视情况而定）

使用命令使 profile 生效：

source /etc/profile

（3）编辑 hadoop 环境配置文件hadoop-env.sh

图1.1 hadoop-env.sh文件位置

exportJAVA_HOME=/usr/java/jdk1.8.0_171

（4）编辑core-site.xml文件

<configuration><property> <name>fs.default.name</name> <value>hdfs://master:9000</value></property><property> <name>hadoop.tmp.dir</name> <value>/usr/hadoop/hadoop-2.7.3/hdfs/tmp</value><description>A base for other temporarydirectories.</description></property><property> <name>io.file.buffer.size</name> <value>131072</value></property><property> <name>fs.checkpoint.period</name> <value>60</value></property><property> <name>fs.checkpoint.size</name> <value>67108864</value></property></configuration>

（5）编辑yarn-site.xml文件

<configuration><property> <name>yarn.resourcemanager.address</name> <value>master:18040</value> </property> <property> <name>yarn.resourcemanager.scheduler.address</name> <value>master:18030</value> </property> <property> <name>yarn.resourcemanager.webapp.address</name> <value>master:18088</value> </property> <property> <name>yarn.resourcemanager.resource-tracker.address</name> <value>master:18025</value> </property> <property> <name>yarn.resourcemanager.admin.address</name> <value>master:18141</value> </property> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <property> <name>yarn.nodemanager.auxservices.mapreduce.shuffle.class</name> <value>org.apache.hadoop.mapred.ShuffleHandler</value> </property>  </configuration>

（6）编写 slaves 文件

图1.2 slaves文件内容

（7）编写master 文件

图1.3 master文件内容

（8）hdfs-site.xml

<configuration><property> <name>dfs.replication</name> <value>2</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>file:/usr/hadoop/hadoop-2.7.3/hdfs/name</value> <final>true</final></property> <property> <name>dfs.datanode.data.dir</name> <value>file:/usr/hadoop/hadoop-2.7.3/hdfs/data</value> <final>true</final> </property> <property> <name>dfs.namenode.secondary.http-address</name> <value>master:9001</value> </property> <property> <name>dfs.webhdfs.enabled</name> <value>true</value> </property> <property> <name>dfs.permissions</name> <value>false</value> </property></configuration>

（9）修改mapred-site.xml，首先将模板文件复制为 xml 文件，对其进行编辑：

cpmapred-site.xml.template mapred-site.xml

<property> <name>mapreduce.framework.name</name> <value>yarn</value> </property>

（10）分发 hadoop：

scp -r /usr/hadoop root@slave1:/usr/

scp -r /usr/hadoop root@slave2:/usr/

注意：slave各个节点上还需要配置环境变量，参考 hadoop 中第（2）。

Vi /etc/profile

export HADOOP_HOME=/usr/hadoop/hadoop-2.7.3

export CLASSPATH=$CLASSPATH:$HADOOP_HOME/lib

exportPATH=$PATH:$HADOOP_HOME/bin

source /etc/profile

（11）master 中格式化hadoop（注意在Hadoop路径下，本文也就是 /usr/hadoop/hadoop-2.7.3）

hadoop namenode -format

sbin/start-all.sh #（可以远程启动子节点的Hadoop，子节点可以不用任何操作）

（12）各个节点的进程如下：（slave子节点的进程都一样）

图1.4 slave节点的进程

图1.5 master节点进程

（13）同时可以访问主节点 master：50070（注意关闭防火墙哦！50070 是 hdfs 的 web 管理页面）

图1.6 hdfs的web管理界面

一次完整的大数据环境搭建目录：

一、zookeeper安装及基础环境配置

二、Hadoop安装

三、Hbase安装及配置

四、构建数据仓库Hive

说明：此系列文章是为了记录本人学习过程，以此来加深理解，希望各位大神路过！！