分布式平台搭建

分布式平台搭建

  • acmore
  • 2018.6.17

1. 搭建Hadoop

以下操作皆基于Ubuntu 16.04 32位环境 & Hadoop 2.7.3版本

1.1 单节点环境

  • 首先安装相关的准备环境
$ sudo apt update
$ sudo apt install -y default-jdk
$ sudo apt install -y vim
$ sudo apt install -y openssh-server
  • 配置JAVA_HOME
    • 一般来说Ubuntu平台上通过default-jdk安装的java位置在/usr/lib/jvm/default-jdk目录
    • /etc/profile中添加下边两行内容并保存退出
    export JAVA_HOME=/usr/lib/jvm/default-java
    export PATH=$PATH:$JAVA_HOME/bin
    
  • 添加用户和用户组
$ sudo addgroup hadoop
$ sudo adduser --ingroup hadoop hduser
$ sudo usermod -a -G sudo hduser
  • 配置ssh
    • 切换到hduser,并执行以下操作
    $ ssh-keygen -t rsa -P ""
    $ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
    
    • 之后尝试使用下边的命令连接本机,这个操作也会将本机加入到known hosts里
    $ ssh localhost
    
  • 安装Hadoop
    • 下载hadoop-2.7.3.tar.gz,以下假定工作目录为/home/hduser
    $ tar -zxvf hadoop-2.7.3.tar.gz
    $ mv hadoop-2.7.3/ hadoop/
    $ sudo chown -R hduser:hadoop hadoop
    
  • 编辑bash配置
    • 打开.bashrc,加入以下内容(也可以修改/etc/profile,但是使用.bashrc更加灵活)
    export JAVA_HOME=/usr/lib/jvm/default-java
    export HADOOP_HOME=/home/hduser/hadoop
    export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin
    
  • 配置Hadoop(不同版本的hadoop的配置方案会有不同,配置之前记得要确定版本)
    • 修改~/hadoop/etc/hadoop/hadoop-env.sh,在文件中添加下边的内容
    export JAVA_HOME=/usr/lib/jvm/default-java
    
    • 修改~/hadoop/etc/hadoop/yarn-env.sh,在文件中添加下边的内容
    export JAVA_HOME=/usr/lib/jvm/default-java
    
    • 修改~/hadoop/etc/hadoop/core-site.xml
      • 执行以下命令
      $ sudo mkdir -p /home/hduser/tmp
      $ sudo chown hduser:hadoop /home/hduser/tmp
      $ sudo chmod 750 /home/hduser/tmp
      
      • 在core-site.xml添加以下内容(各个属性的内容可以按照实际情况修改)
      <configuration>
          <property>
              <name>fs.defaultFS</name>
              <value>hdfs://master:9000</value>
          </property>
          <property>
              <name>io.file.buffer.size</name>
              <value>131072</value>
          </property>
         <property>
              <name>hadoop.tmp.dir</name>
              <value>file:/home/hduser/tmp</value>
              <description>Abase for other temporary directories.</description>
          </property>
          <property>
              <name>hadoop.proxyuser.hduser.hosts</name>
             <value>*</value>
          </property>
          <property>
              <name>hadoop.proxyuser.hduser.groups</name>
              <value>*</value>
          </property>
      </configuration>
      
    • 修改~/hadoop/etc/hadoop/hdfs-site.xml,添加以下内容(各个属性的内容可以按照实际情况修改)
      • 执行以下命令
      $ sudo mkdir -p /home/hduser/dfs/name
      $ sudo chown hduser:hadoop /home/hduser/dfs/name
      $ sudo chmod 750 /home/hduser/dfs/name
      $ sudo mkdir -p /home/hduser/dfs/data
      $ sudo chown hduser:hadoop /home/hduser/dfs/data
      $ sudo chmod 750 /home/hduser/dfs/data
      
      • 在hdfs-site.xml中添加以下内容
      <configuration>
          <property>
              <name>dfs.namenode.secondary.http-address</name>
              <value>master:9001</value>
          </property>
          <property>
              <name>dfs.namenode.name.dir</name>
              <value>file:/home/hduser/dfs/name</value>
          </property>
          <property>
              <name>dfs.datanode.data.dir</name>
              <value>file:/home/hduser/dfs/data</value>
          </property>
          <property>
              <name>dfs.replication</name>
              <value>3</value>
          </property>
          <property>
              <name>dfs.webhdfs.enabled</name>
              <value>true</value>
          </property>
      </configuration>
      
    • 修改~/hadoop/etc/hadoop/mapred-site.xml,添加以下内容(各个属性的内容可以按照实际情况修改)
    <configuration>
        <property>
            <name>mapreduce.framework.name</name>
            <value>yarn</value>
        </property>
        <property>
            <name>mapreduce.jobhistory.address</name>
            <value>master:10020</value>
        </property>
        <property>
            <name>mapreduce.jobhistory.webapp.address</name>
            <value>master:19888</value>
        </property>
    </configuration>
    
    • 修改~/hadoop/etc/hadoop/yarn-site.xml(各个属性的内容可以按照实际情况修改)
    <configuration>
        <property>
            <name>yarn.nodemanager.aux-services</name>
            <value>mapreduce_shuffle</value>
        </property>
        <property>
            <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
            <value>org.apache.hadoop.mapred.ShuffleHandler</value>
        </property>
        <property>
            <name>yarn.resourcemanager.address</name>
            <value> master:8032</value>
        </property>
        <property>
            <name>yarn.resourcemanager.scheduler.address</name>
            <value> master:8030</value>
        </property>
        <property>
            <name>yarn.resourcemanager.resource-tracker.address</name>
            <value> master:8031</value>
        </property>
        <property>
            <name>yarn.resourcemanager.admin.address</name>
            <value> master:8033</value>
        </property>
        <property>
            <name>yarn.resourcemanager.webapp.address</name>
            <value> master:8088</value>
        </property>
    </configuration>
    
  • 格式化Namenode
    • 进入~/hadoop/bin目录下,执行以下操作
    $ ./hdfs namenode –format
    
  • 启动hadoop
    • ~/hadoop/sbin执行以下命令
    $ ./start-dfs.sh
    $ ./start-yarn.sh
    
    • 之后通过jps命令可以看到以下结果,说明启动成功
    13058   Jps
    13026   NodeManager
    12916   ResourceManager
    12169   DataNode
    

1.2 集群环境

此处默认master和slave已经按照单机节点配置完成

  • 设置网络
    • 我的例子是一台master一台slave,分别确定两者的ip,然后在两台机器的/etc/hosts中写入以下内容
    192.168.0.1    master
    192.168.0.2    slave
    
  • 配置ssh免密登录
    • 在master上执行以下命令
    $ ssh-copy-id -i ~/.ssh/id_rsa.pub hduser@slave
    
    • 在slave上执行以下命令
    $ ssh-copy-id -i ~/.ssh/id_rsa.pub hduser@master
    
    • 之后两方互相登录测试一下是否可以免密登录
  • 配置~/hadoop/etc/hadoop/slaves
    • 在master机器的slaves文件中添加以下内容
    master
    slave
    
  • 格式化Namenode
    • 进入master的~/hadoop/bin目录下,执行以下操作
    $ ./hdfs namenode –format
    
  • 启动hadoop
    • 在master的~/hadoop/sbin执行以下命令
    $ ./start-dfs.sh
    $ ./start-yarn.sh
    
    • 之后通过jps命令可以看到以下结果,说明启动成功
      • master中
      4048    Jps
      3899    ResourceManager
      4013    NodeManager
      3726    SecondaryNameNode
      3423    NameNode
      3535    DataNode
      
      • slave中
      2754    DataNode
      3012    Jps
      2903    NodeManager
      

2. 搭建Spark

2.1 Spark平台

  • 下载Spark

    • 这里下载和hadoop版本对应的spark,假定工作目录为/home/hduser
    • 进行如下操作解压压缩包(每个节点都要进行)
    $ tar -zxvf spark-2.3.1-bin-hadoop2.7.tgz
    
  • 配置~/.bashrc文件

    • 在.bashrc文件中添加以下内容(每个节点都要添加)
    export SPARK_HOME=/home/hduser/spark
    export PATH=$PATH:$SPARK_HOME/bin
    
  • 配置~/spark/conf/slaves文件

    • 在两个节点的salves文件中添加以下内容
    master
    slave
    
  • 启动Spark

    • 在master的~/spark/sbin中执行以下命令
    ./start-all.sh
    
    • 在master中执行jps,发现以下结果说明spark运行成功
    5257    Worker
    5177    Master
    3726    SecondaryNameNode
    5326    Jps
    3432    NameNode
    3535    DataNode
    
    • 在slave中执行jsp,发现一下结果说明spark运行成功
    2754    DataNode
    3717    Worker
    3771    Jps
    

2.2. 配置Scala

  • 下载Scala

    • 这里相应版本的scala压缩包,假定工作目录为/home/hduser
    • 进行如下操作解压压缩包(只需要在master进行)
    $ tar -zxvf scala-2.12.6.tgz
    
  • 配置~/.bashrc文件

    • 在.bashrc文件中添加以下内容(只需要在master在master上执行以下命令)
    export SCALA_HOME=/home/hduser/scala
    export PATH=$PATH:$SCALA_HOME/bin
    

2.3 配置Eclipse

  • 安装Eclipse

    • 在master上执行以下命令
    $ sudo apt install eclipse-platform
    
  • 安装Eclipse插件


参考资料

  1. 在Ubuntu上搭建单节点Hadoop
  2. 在Ubuntu上搭建Hadoop集群
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,258评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,335评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,225评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,126评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,140评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,098评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,018评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,857评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,298评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,518评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,678评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,400评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,993评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,638评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,801评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,661评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,558评论 2 352

推荐阅读更多精彩内容