一次完整的大数据环境搭建——Hadoop安装

所用软件                                    版本号

hadoop                            hadoop-2.7.3.tar.gz


1、Hadoop安装

(1) 创建对应工作目录/usr/hadoop并解压 hadoop 到相应目录:

mkdir -p  /usr/hadoop

tar -zxvf /opt/soft/hadoop-2.7.3.tar.gz -C /usr/hadoop/

(2)配置环境变量:

vim        /etc/profile

export HADOOP_HOME=/usr/hadoop/hadoop-2.7.3

export    CLASSPATH=$CLASSPATH:$HADOOP_HOME/lib

export    PATH=$PATH:$HADOOP_HOME/bin #(当然具体的工作路径视情况而定)

使用命令使 profile 生效:

source /etc/profile

(3)编辑 hadoop 环境配置文件hadoop-env.sh

图1.1 hadoop-env.sh文件位置

exportJAVA_HOME=/usr/java/jdk1.8.0_171

(4)编辑core-site.xml文件

<configuration><property> <name>fs.default.name</name>  <value>hdfs://master:9000</value></property><property> <name>hadoop.tmp.dir</name>  <value>/usr/hadoop/hadoop-2.7.3/hdfs/tmp</value><description>A base for other temporarydirectories.</description></property><property> <name>io.file.buffer.size</name>  <value>131072</value></property><property> <name>fs.checkpoint.period</name>  <value>60</value></property><property> <name>fs.checkpoint.size</name>  <value>67108864</value></property></configuration>

(5)编辑yarn-site.xml文件

  <configuration><property> <name>yarn.resourcemanager.address</name>  <value>master:18040</value> </property> <property>  <name>yarn.resourcemanager.scheduler.address</name>  <value>master:18030</value> </property> <property>  <name>yarn.resourcemanager.webapp.address</name>  <value>master:18088</value> </property> <property>  <name>yarn.resourcemanager.resource-tracker.address</name>  <value>master:18025</value> </property> <property> <name>yarn.resourcemanager.admin.address</name> <value>master:18141</value> </property> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <property> <name>yarn.nodemanager.auxservices.mapreduce.shuffle.class</name> <value>org.apache.hadoop.mapred.ShuffleHandler</value> </property> <!-- Site specific YARNconfiguration properties --> </configuration>

(6)编写 slaves 文件

图1.2 slaves文件内容

(7)编写master 文件

图1.3  master文件内容

(8)hdfs-site.xml

<configuration><property> <name>dfs.replication</name>  <value>2</value> </property> <property>  <name>dfs.namenode.name.dir</name>  <value>file:/usr/hadoop/hadoop-2.7.3/hdfs/name</value>  <final>true</final></property> <property>  <name>dfs.datanode.data.dir</name>  <value>file:/usr/hadoop/hadoop-2.7.3/hdfs/data</value>  <final>true</final> </property> <property> <name>dfs.namenode.secondary.http-address</name>  <value>master:9001</value> </property> <property>  <name>dfs.webhdfs.enabled</name>  <value>true</value> </property> <property>  <name>dfs.permissions</name>  <value>false</value> </property></configuration>

(9)修改mapred-site.xml,首先将模板文件复制为 xml 文件,对其进行编辑:

  cpmapred-site.xml.template mapred-site.xml   

<property> <name>mapreduce.framework.name</name> <value>yarn</value> </property>

(10)分发 hadoop:

scp -r /usr/hadoop root@slave1:/usr/

scp -r /usr/hadoop root@slave2:/usr/

注意:slave各个 节点上还需要配置环境变量,参考 hadoop 中第(2)。

Vi  /etc/profile

export    HADOOP_HOME=/usr/hadoop/hadoop-2.7.3

export    CLASSPATH=$CLASSPATH:$HADOOP_HOME/lib

exportPATH=$PATH:$HADOOP_HOME/bin

source /etc/profile

(11)master 中格式化hadoop(注意在Hadoop路径下,本文也就是 /usr/hadoop/hadoop-2.7.3)

hadoop namenode -format 

sbin/start-all.sh #(可以远程启动子节点的Hadoop,子节点可以不用任何操作)

(12)各个节点的进程如下:(slave子节点的进程都一样)

图1.4 slave节点的进程
图1.5 master节点进程

(13)同时可以访问主节点 master:50070(注意关闭防火墙哦!50070 是 hdfs 的 web 管理页面)

图1.6 hdfs的web管理界面

一次完整的大数据环境搭建目录:

一、zookeeper安装及基础环境配置

二、Hadoop安装

三、Hbase安装及配置

四、构建数据仓库Hive

说明:此系列文章是为了记录本人学习过程,以此来加深理解,希望各位大神路过!!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容