hadoop 3.0.0完全分布式

环境准备

  1. 节点四个:
    192.168.199.5(node1);
    192.168.199.6(node2);
    192.168.199.7(node3);
    192.168.199.8(node4);
  2. hadoop3.0.0,下载地址: http://www-us.apache.org/dist/hadoop/common/hadoop-3.0.0/hadoop-3.0.0.tar.gz
  3. zookeeper3.4.10,下载地址: http://www-eu.apache.org/dist/zookeeper/zookeeper-3.4.10/zookeeper-3.4.10.tar.gz

节点分布

QQ截图20180106105243.jpg

(1代表这个节点需要安装)

NN: nameNode
DN: dataNode
ZK: zookeeper
ZKFC: ZKFailoverController
JN: journalnode
RM: ResourceManager
DM: NodeManager

分布式的整体架构:


QQ截图20180106104703.jpg

步骤

  1. 在node1四个节点上解压handoop: tar -zxvf hadoop-3.0.0.tar.gz
  2. 在node1上,进入启动脚本目录: cd hadoop-3.0.0/etc/hadoop/,修改文件: vim hadoop-env.sh 修改:export JAVA_HOME=/root/jdk1.8
  3. 在node1上,配置nameNode的HA,在目录/etc/hadoop/,修改文件: vim hdfs-site.xml,下面是文件的所有配置:
<configuration>
  <!--服务名,用于zookeeper识别 -->
  <property>
    <name>dfs.nameservices</name>
    <value>chenzp</value>
  </property>
  <!--配置每个nameNode的id-->
  <property>
    <name>dfs.ha.namenodes.chenzp</name>
    <value>nn1,nn2</value>
  </property>
  <!--配置nameNode rpc协议-->
  <property>
    <name>dfs.namenode.rpc-address.chenzp.nn1</name>
    <value>node1:9820</value>
  </property>
  <property>
    <name>dfs.namenode.rpc-address.chenzp.nn2</name>
    <value>node2:9820</value>
  </property>
  <!--配置nodeNode的http访问地址-->
  <property>
    <name>dfs.namenode.http-address.chenzp.nn1</name>
    <value>node1:9870</value>
  </property>
  <property>
    <name>dfs.namenode.http-address.chenzp.nn2</name>
    <value>node2:9870</value>
  </property>
  <!--配置 journalnode 地址-->
  <property>
    <name>dfs.namenode.shared.edits.dir</name>
    <value>qjournal://node2:8485;node3:8485;node4:8485/chenzp</value>
  </property>
  <!--配置用于切换name Ha的类-->
  <property>
    <name>dfs.client.failover.proxy.provider.chenzp</name>
    <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
  </property>
  <!--配置节点的免密码登录位置-->
  <property>
    <name>dfs.ha.fencing.methods</name>
    <value>sshfence</value>
  </property>
  <property>
    <name>dfs.ha.fencing.ssh.private-key-files</name>
    <value>/root/.ssh/id_rsa</value>
  </property>
  <!--配置 journalnode 的工作目录-->
  <property>
    <name>dfs.journalnode.edits.dir</name>
    <value>/root/data/journal</value>
  </property>
  <!--配置开启nameNode Ha的自动切换-->
  <property>
    <name>dfs.ha.automatic-failover.enabled</name>
    <value>true</value>
  </property>
</configuration>

配置core-site.xml,名命令: vim core-site.xml,以下是所有配置:

<configuration>
 <!--hadoop集群入口-->
 <property>
  <name>fs.defaultFS</name>
  <value>hdfs://chenzp</value>
</property>
<!--zookeeper集群-->
 <property>
   <name>ha.zookeeper.quorum</name>
   <value>node1:2181,node2:2181,node3:2181</value>
 </property>
 <!--hadoop工作目录-->
 <property>
  <name>hadoop.tmp.dir</name>
  <value>/opt/data/hadoop</value>
</property>
</configuration>
  1. 配置zookeeper集群。
    根据前面的节点分配图,在node1,node2,node3上配置zookeeper集群。在node1,node2,node3解压下载的zookeeper,
    命令: tar -zxvf zookeeper-3.4.10.tar.gz.先在node1上配置,然后复制到node2,node3,所以进入node1的zookeeper的配置目录,命令: cd zookeeper-3.4.10/conf/。copy一个配置文件出来,命令: cp zoo_sample.cfg zoo.cfg
    编辑zoo.cfg, 命令:vim zoo.cfg,需要配置的地方如下,其余保持不变:
    dataDir=/root/data/zookeeper
    server.1=node1:2888:3888
    server.2=node2:2888:3888
    server.3=node3:2888:3888
    将上面的zoo.cfc文件copy到node2,node3,命令:
    scp zoo.cfg root@node2:/root/zookeeper-3.4.10/conf/
    scp zoo.cfg root@node3:/root/zookeeper-3.4.10/conf/
    在上面的dataDir目录下执行命令:vim myid,编辑内容1,保存退出。
    将上面的myid文件copy到node2,node3,命令:
    scp -r /root/data root@node2:/root
    scp -r /root/data root@node3:/root
    将node2里面的myid内容修改成2,将node3里面的myid内容修改成3。最后在配置zookeeper的环境变量: export PATH=/root/zookeeper-3.4.10/bin:$PATH。在node1,node2,node3分别执行命令: zkServer.sh start,完成之后,查看zookeeper启动完成没有,命令:jps 如果有:QuorumPeerMain,那么就ok啦.
  2. 配置dataNode
    根据前面的节点分配图,dataNode在node2,node3,node4上有。我们先在node1配置,然后在copy到其他节点。在目录/etc/hadoop/,修改文件: vim workers(2.x版本是slave)下面是文件的所有配置:
    node2
    node3
    node4
  3. 将node1上etc目录下的配置文件copy到node2,node3,node4上,
    scp ./* root@node2:/root/hadoop-3.0.0/etc/hadoop/
    scp ./* root@node3:/root/hadoop-3.0.0/etc/hadoop/
    scp ./* root@node4:/root/hadoop-3.0.0/etc/hadoop/
  4. 根据前面的节点分配图,在node2,node3,node4上启动 journalnode,进入hadoop的sbin目录
    ./hadoop-daemon.sh start journalnode,查看启动成功没有,命令:jps,如果有JournalNode进程,那么就ok啦
  5. 初始化hdfs.在任意一台namenode(这里是node1)节点的hadoop的bin目录上执行
    ./hdfs namenode -format
    如果失败,可能是防火墙问题.关闭四个节点的防火墙:
    systemctl stop firewalld.service #停止firewall
    systemctl disable firewalld.service #禁止firewall开机启动。
    可以看到元数据位置:/opt/data/hadoop/dfs/name/current 下有fsimage文件就ok了
  6. 复制元数据到未格式化的节点(node2)
    启动第8点的namenode(node1),进入sbin目录,
    在未格式化的namenode(node2)上执行命令:./hadoop-daemon.sh start namenode
    执行完成之后,jps看看有没有NameNode进程,如果有就ok啦.在node2的bin目录下执行: hdfs namenode -bootstrapStandby。执行完以后可以看到/opt/data/hadoop/dfs/name/current 下有fsimage文件就ok了
  7. 初始化zkfc,在其中个一台namenode的bin目录下执行命令: ./hdfs zkfc -formatZK
  8. 现在可以启动hadoop了。进入namenode1的sbin目录,执行命令:
    ./stop-dfs.sh 先关闭所有和hadoop的相关进程。如果出现错误,在stop-dfs.sh和start-dfs.sh中添加下面变量后,dfs可以正常启动
    HDFS_DATANODE_USER=root
    HDFS_DATANODE_SECURE_USER=hdfs
    HDFS_NAMENODE_USER=root
    HDFS_JOURNALNODE_USER=root
    HDFS_ZKFC_USER=root
    HDFS_SECONDARYNAMENODE_USER=root
    ,关闭完成之后,执行命令./ststart-dfs.sh
  9. 完成之后,查看四台机器的进程情况,如下:

    node1:
    QQ截图20180108145102.jpg

    node2:
    QQ截图20180108145153.jpg

    node3:
    QQ截图20180108145228.jpg

    node4:
    QQ截图20180108145319.jpg

通过jps可以看到四个节点的hadoop启动完成了

  1. 通过浏览器地址访问: http://node1:9870 ,可以看到如下的nameNode的web界面:
    QQ截图20180108145548.jpg

到此,handoop的配置完成。以上所有配置都来自3.0.0版本的官网

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容