Hadoop2.7.5完全分布式集群搭建和测试

Hadoop2.7.5完全分布式集群搭建和测试

[TOC]

1 准备

1.2 版本信息介绍

环境软件:Vmware workstation12

系统:CentOS-7-x86_64-DVD-1708.iso 1GB内存 20GB硬盘

JDK:jdk-8u161-linux-x64.tar.gz

Hadoop:hadoop-2.7.5.tar.gz

节点 IP
master 195.168.95.20
node1 192.168.95.21
node2 192.168.95.22

备注:官网下载软件

1.2 流程介绍

初始化虚拟机

创建虚拟机,修改主机名为master,设置静态IP,修改系统的镜像源为阿里云源,关闭防火墙,建立hadoop用户组和用户名,安装JDK

克隆出node节点

建立SSH

配置master的hadoop

复制hadoop文件到node节点

配置master环境变量,启动,测试

2 初始化工作

安装好Vmware ,创建虚拟机master,设置静态IP为195.168.95.20,修改系统源为阿里源,关闭防火墙....

2.1 设置静态IP

#修改主机名为master
$hostnamectl set-hostname master
#设置IP
$vi /etc/sysconfig/network-scripts/ifcfg-ens33
设置IP

备注:可能需要修改/etc/sysconfig/network文件

$vi /etc/sysconfig/network
修改network文件
#重启网络
$service network restart

测试看看是否可以联网,若能联网,则进行下一步。

2.2 防火墙和下载源

#停止firewall
systemctl stop firewalld.service 
#禁止firewall开机启动
systemctl disable firewalld.service 
#更换源
yum install -y wget
mv /etc/yum.repos.d/CentOS-Base.repo /etc/yum.repos.d/CentOS-Base.repo.backup
wget -O /etc/yum.repos.d/CentOS-Base.repo http://mirrors.aliyun.com/repo/Centos-7.repo
yum clean all
rpm --rebuilddb
yum makecache

2.3 新建组和用户

新建Hadoop的分组和用户,后续hadoop的所有的操作都在此分组下操作。

#新建用户组hadoop和用户hadoop  (root用户操作)
$groupadd  hadoop
$useradd -g hadoop  hadoop
$passwd  hadoop
#修改/etc/sudoers或者执行visudo命令,在root ALL ... 下添加hadoop的权限
添加hadoop的权限

备注:下面全部用hadoop用户操作

2.4 JDK安装

下载JDK1.8(jdk-8u161-linux-x64.tar.gz),解压在自定义目录,然后配置环境变量

#使用hadoop用户
$su hadoop
#解压
$sudo mkdir -p /usr/java
$sudo tar -zxvf jdk-8u161-linux-x64.tar.gz -C /usr/java
$sudo vi /etc/profile

JAVA_HOME=/usr/java/jdk1.8.0_161
CLASSPATH=.:$JAVA_HOME/lib:$CLASSPATH
PATH=$JAVA_HOME/bin:$PATH
export JAVA_HOME   CLASSPATH   PATH

#更新环境变量
$source /etc/profile
#查看是否安装成功
$java -version

jdk安装成功后,克隆master虚拟机,分别克隆为node1和node2,然后其次启动打开,进行下一步的ssh免密码配置。

3 SSH免密码配置

前提虚拟机需要安装ssh服务,操作都在hadoop用户下

在master、node1、node2的/etc/hosts文件中写入所有节点的ip和主机名,在所有节点均执行如下的操作。

$sudo vi /etc/hosts 
192.168.95.20 master
192.168.95.21 node1
192.168.95.22 node2

master节点:

相关参考资料:ssh免密码登陆及其原理

#生成私钥公钥,连续回车
$ssh-keygen -t rsa -P ''
$cd /home/hadoop/.ssh

node1节点:

#生成私钥公钥,连续回车
$ssh-keygen -t rsa -P ''
$cd /home/hadoop/.ssh
$scp id_rsa.pub hadoop@master:~/.ssh/id_rsa.pub.node1

node2节点:

#生成私钥公钥,连续回车
$ssh-keygen -t rsa -P ''
$cd /home/hadoop/.ssh
$scp id_rsa.pub hadoop@master:~/.ssh/id_rsa.pub.node2

master节点:

$cd /home/hadoop/.ssh
$cat id_rsa.pub >> authorized_keys
$cat id_rsa.pub.node1 >> authorized_keys
$cat id_rsa.pub.node2 >> authorized_keys

然后将authorized_keys发送到node1、node2

$scp authorized_keys hadoop@node1:~/.ssh/authorized_keys
$scp authorized_keys hadoop@node2:~/.ssh/authorized_keys

测试ssh免密码是否成功,ssh master/node1/node2,第一次需要输入密码,之后就可以直接登陆,没有问题了就再进行下一步。

4 hadoop安装

在官网下载hadoop(hadoop-2.7.5.tar.gz),解压在自定义目录,创建name和data目录,以及tmp目录。

dfs.name.dir:保存namenode元数据的位置,可以指定多个目录,元数据文件会同时写入这几个目录,从而支持冗余备份。最好有一个是NFS网络硬盘

dfs.data.dir:保存datanode数据文件的位置,可以指定多个目录,这多个目录位于不同的磁盘可以提高IO使用率

#解压
$sudo mkdir -p /usr/hadoop
$sudo tar -zxvf hadoop-2.7.5.tar.gz -C /usr/hadoop/
#新建目录name、data、tmp
$sudo mkdir -p /usr/hadoop/data/hdfs/name
$sudo mkdir -p /usr/hadoop/data/hdfs/data
$sudo mkdir -p /usr/hadoop/data/tmp
#授权新建的目录
$sudo chown -R hadoop:hadoop /usr/hadoop/hadoop-2.7.5
$sudo chown -R hadoop:hadoop /usr/hadoop/data

5 hadoop文件配置

都在/usr/hadoop/etc/hadoop文件下,需要配置一下的文件

hadoop-env.sh

yarn-env.sh

slaves

core-site.xml

hdfs-site.xml

mapred-site.xml

yarn-site.xml

5.1 hadoop-env.sh

修改JAVA_HOME值export JAVA_HOME=export JAVA_HOME=/usr/java/jdk1.8.0_161

hadoop-env.sh

5.2 yarn-env.sh

修改JAVA_HOME值export JAVA_HOME=export JAVA_HOME=/usr/java/jdk1.8.0_161

yarn-env.sh

5.3 slaves

在slave中写入datanode的hostname/IP

node1
node2

5.4 core-site.xml

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://master:9000</value>
    </property>
    <property>
        <name>io.file.buffer.size</name>
        <value>131072</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>file:/usr/hadoop/data/tmp</value>
        <description>Abase for other temporary   directories.</description>
    </property>
</configuration> 

5.5 hdfs-site.xml

<configuration>
     <property>
             <name>dfs.namenode.secondary.http-address</name>
             <value>master:9001</value>
     </property>
     <property>
             <name>dfs.namenode.name.dir</name>
             <value>file:/usr/hadoop/data/hdfs/name</value>
     </property>
     <property>
             <name>dfs.datanode.data.dir</name>
             <value>file:/usr/hadoop/data/hdfs/data</value>
     </property>
     <property>
             <name>dfs.replication</name>
             <value>2</value>
      </property>
      <property>
             <name>dfs.webhdfs.enabled</name>
             <value>true</value>
      </property>
</configuration>

5.6 mapred-site.xml

#创建mapred-site.xml
$sudo cp mapred-site.xml.template mapred-site.xml
$sudo vi mapred-site.xml
<configuration>
       <property>
               <name>mapreduce.framework.name</name>
               <value>yarn</value>
       </property>
       <property>
                <name>mapreduce.jobhistory.address</name>
                <value>master:10020</value>
       </property>
       <property>
                <name>mapreduce.jobhistory.webapp.address</name>
                <value>master:19888</value>
       </property>
</configuration>

5.7 yarn-site.xml

<configuration>
        <property>
               <name>yarn.nodemanager.aux-services</name>
               <value>mapreduce_shuffle</value>
        </property>
        <property>
               <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
               <value>org.apache.hadoop.mapred.ShuffleHandler</value>
        </property>
        <property>
               <name>yarn.resourcemanager.address</name>
               <value>master:8032</value>
        </property>
        <property>
               <name>yarn.resourcemanager.scheduler.address</name>
               <value>master:8030</value>
        </property>
        <property>
              <name>yarn.resourcemanager.resource-tracker.address</name>
              <value>master:8031</value>
        </property>
        <property>
              <name>yarn.resourcemanager.admin.address</name>
              <value>master:8033</value>
        </property>
        <property>
               <name>yarn.resourcemanager.webapp.address</name>
               <value>master:8088</value>
        </property>
</configuration>

6 复制hadoop文件到node

master节点:

#将hadoop文件夹复制到node1  先转存 再存到具体目录
$scp -r /usr/hadoop hadoop@node1:/home/hadoop/
#将hadoop文件夹复制到node2
$scp -r /usr/hadoop hadoop@node2:/home/hadoop/

node1节点:

$cd /home/hadoop
$sudo mv hadoop/ /usr/

node2节点:

$cd /home/hadoop
$sudo mv hadoop/ /usr/

7 配置环境变量

#编辑/etc/profile
sudo vi /etc/profile

#hadoop  
export HADOOP_HOME=/usr/hadoop/hadoop-2.7.5
export PATH=$PATH:$HADOOP_HOME/sbin  
export PATH=$PATH:$HADOOP_HOME/bin

$source /etc/profile
#设置hadoop的全局命令
$cd
$vi .bashrc

HADOOP_HOME=/usr/hadoop/hadoop-2.7.5
PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
export HADOOP_HOME  PATH

#source .bashrc

8 格式化和启动Hadoop

$hdfs namenode -format

备注:出现Storage directory /usr/hadoop/data/hdfs/name has been successfully formatted时,则格式化成功

启动hdfs

$start-dfs.sh
$start-yarn.sh
$mr-jobhistory-daemon.sh start historyserver
$jps
[hadoop@master ~]$ jps
2422 SecondaryNameNode
3034 ResourceManager
9626 Jps
3324 JobHistoryServer
2239 NameNode
[hadoop@node1 hadoop]$ jps
1458 NodeManager
5223 Jps
1343 DataNode
[hadoop@node2 ~]$ jps
5328 Jps
1257 DataNode
1372 NodeManager

查看web端

查看web端
查看web端

9 测试

执行wordcount

$hdfs dfs -mkdir /wordcount
$hdfs dfs -put wordcount.txt /wordcount
$yarn jar /usr/hadoop/hadoop-2.7.5/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.5.jar wordcount /wordcount/wordcount.txt /wordcount/output

查看结果

$hdfs dfs -cat /wordcount/output/part-r-00000

词频统计正确,至此,hadoop搭建成功。

10 hdfs命令

#关闭hadoop
$mr-jobhistory-daemon.sh stophistoryserver
$stop-yarn.sh
$stop-dfs.sh

#查看hdfs进程
$jps

#创建文件夹
$hdfs dfs -mkdir -p  /log/20161001

#上传文件或目录
$hdfs dfs -put log.txt /log/20161001/
$hdfs dfs -copyFromLocal log.txt /log/20161001/

#将文件从HDFS复制到本地(默认当前目录)
$hdfs dfs -get /wordcount/output/part-r-00000  /home/hadoop
$hdfs dfs -copyToLocal /log/20161001/log.txt /home/Hadoop
#连接文件到本地
$hdfs dfs -getmerge /user/hadoop/output/ /home/hadoop/merge --将output目录下的所有文件合并到本地merge文件中

#显示目录下的文件
$hdfs dfs -ls /log/20161001/
#如果是文件,返回文件信息如下:权限 <副本数> 用户ID 组ID 文件大小 修改日期 修改时间 权限 文件名
#如果是目录,返回目录信息如下:权限 用户ID 组ID 修改日期 修改时间 目录名
#递归显示目录下的文件
$hdfs dfs -ls -R /log/20161001/

#查看内容
$hdfs dfs -text /log/20161001/log.txt
#或-cat、-tail命令,但对于压缩文件只能用 -text 参数来查看,否则是乱码

#删除 文件
$hdfs dfs -rm /log/20161001/log.txt
#删除文件夹
$hdfs dfs –rmr /log/20161001/log.txt

#复制文件:将file1文件复制到file2
$hdfs dfs -cp /user/hadoop/file1 /user/hadoop/file2  
#将文件file1,file2复制到dir目录下
$hdfs dfs -cp /user/hadoop/file1 /user/hadoop/file2 /user/hadoop/dir

#移动文件:将文件file1移动到file2
$hdfs dfs -mv /user/hadoop/file1 /user/hadoop/file2  
#将file1 file2 file3 移动到dir目录下
$hdfs dfs -mv /user/hadoop/file1 /user/hadoop/file2 /user/hadoop/file3 /user/hadoop/dir  

#distcp 分布式复制程序,是由 MapReduce 作业来实现的,
#它是通过集群中并行运行的 map 来完成集群之间大量数据的复制
$hadoop distcp hdfs://cloud001:9000/a/b hdfs://cloud002:9000/a   #默认情况下 distcp 会跳过目标路径下已经存在的文件
$hadoop distcp -overwrite hdfs://cloud001:9000/a/b hdfs://cloud002:9000/a,覆盖现有文件
$hadoop distcp -update hdfs://cloud001:9000/a/b hdfs://cloud002:9000/a,更新有改动过的文件

#查看正在运行的 Job
$mapred job -list,-list all显示所有job
#关闭正在运行的 Job
$mapred job -kill job_2732108212572_0001
#检查 HDFS 块状态,查看是否损坏
$hdfs fsck /
#检查 HDFS 块状态,并删除损坏的块
$hdfs fsck / -delete
#检查 HDFS 状态,包括 DataNode 信息
$hdfs dfsadmin –report
#Hadoop 进入安全模式
$hdfs dfsadmin -safemode enter
#Hadoop 离开安全模式
$hdfs dfsadmin -safemode leave
#平衡集群中的文件
$sbin/start-balancer.sh

参考资料

1 Hadoop2.7.3完全分布式集群搭建和测试

                                             20180125---Boy
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,723评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,003评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,512评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,825评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,874评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,841评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,812评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,582评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,033评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,309评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,450评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,158评论 5 341
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,789评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,409评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,609评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,440评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,357评论 2 352

推荐阅读更多精彩内容