Hadoop3.2.0环境搭建(Ubuntu18.04)

前言

在搭建过程中需要挺多坑,借鉴网上很多教程,因此记录下来,方便学习整理。

实验环境

主机系统:windows 10
虚拟机:VMware12( Ubuntu18.04)
软件版本:Hadoop 3.2.0 (jdk 1.8.0_131)

环境搭建

1、软件包准备

hadoop在 https://archive.apache.org/dist/hadoop/common/ 选择最新版本下载即可;jdk在 https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html 选择下载即可。准备好两个安装包就可以开始了!

2、安装软件

2.1安装jdk

查看系统已安装的jdk

$:java -version

结果如果是OpenJDK,那么久需要先卸载(因为这个坑,我重新安装了好几次T^T),根据网上的说明,OpenJDK与官网的JDK存在差异可能会出现一些麻烦(在这里没有验证具体的差异,本文在意环境搭建不详细讨论)

删除OpenJDK:

$:sudo apt remove openjdk*

解压jdk-8u131-linux-x64.tar.gz文件,并且移到目录/usr/local/java:

$:tar -zxvf jdk-8u131-linux-x64.tar.gz
$:sudo mv ~/jdk 1.8.0_131 /usr/local/java

这个版本的jdk只需要解压,然后设置环境变量就可以使用了:

$:sudo vim /etc/profile

在末尾添加以下环境变量
export JAVA_HOME=/usr/local/java
export JRE_HOME=$JAVA_HOME/jre
export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH
export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH

添加完后退出,然后使修改生效
$:source /etc/profile

(如果权限不足修改,可以切换回到root用户执行,再切回普通用户)

查看当前java版本

$:java -version (或者javac -version)
jdk设置成功

2.2安装并设置ssh和pdsh

ssh和pdsh分别是hadoop安装必须软件和建议安装软件,通过ssh会对所有传输的数据进行加密,防止远程管理系统时信息外泄的问题。

$:sudo apt install ssh pdsh

(在这里需要注意的是在启动hdfs时可能会报“ rcmd: socket: Permission denied” 这个错误,问题的解决是可创建一个rcmd_default文件,在里面填写ssh)

$:echo "ssh" > /etc/pdsh/rcmd_defalut

(还需要注意一点后面会出现提醒 “ ssh exit with code 1”,网上有个方法是写入ssh时添加一个回车换行,不过我试了也没起效果,但是不影响使用,可以后面再详细研究一下)

接下来,设置免密码登录ssh:

产生SSH Key:
$:ssh-keygen -t rsa -P ' ' -f ~/.ssh/id_rsa

会产生两个文件id_rsa和id_rsa.pub,将Key放置到许可文件中
$:cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
$ chmod 0600 ~/.ssh/authorized_keys

验证是否成功:
$:ssh localhost
ssh设置成功

2.3配置hdfs

首先需要解压hadoop-3.2.0.tar.gz并且移到/usr/local/hadoop

$:tar -zxvf hadoop-3.2.0.tar.gz
$:sudo mv ~/hadoop-3.2.0 /usr/local/hadoop

修改hadoop-env.sh文件,在里面指定JAVA_HOME的具体路径:

$ sudo vim /usr/local/hadoop/etc/hadoop/hadoop-env.sh
在以下位置添加java路径:
# The java implementation to use. By default, this environment
# variable is REQUIRED on ALL platforms except OS X!
export JAVA_HOME=/usr/local/java

接下来开始安装伪分布式hadoop,编辑修改core-site.xml文件

$ sudo vim /usr/local/hadoop/etc/hadoop/core-site.xml

在<configuration></configuration>添加以下信息:
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>

还需要修改hdfs-site.xml文件

$ sudo vim /usr/local/hadoop/etc/hadoop/hdfs-site.xml

在<configuration></configuration>添加以下信息:
    <property>
        <name>dfs.replication</name>
        <value>3</value>
    </property>

现在开始启动hdfs,首先格式化文件系统(注意:在首次安装的时候格式化一次即可!!!因为会删除里面所有文件)

$:/usr/local/hadoop/bin/hdfs namenode -format
格式化成功

运行NameNode和DataNode

$:/usr/local/hadoop/sbin/start-dfs.sh

用jps可以查看结果,若出现权限问题可以通过以下改变权限

$:sudo chown <username>:root -R /usr/local/hadoop

然后可以访问NameNode网站 http://localhost:9870/

登录成功

接下来配置yarn,用来管理MapReduce任务。修改mapred-site.xml和yarn-site.xml文件

先停止守护进程:
$:/usr/local/hadoop/sbin/stop-dfs.sh

然后修改mapred-site.xml文件:
$ sudo vim /usr/local/hadoop/etc/hadoop/mapred-site.xml

在<configuration></configuration>添加以下信息:
    <property>
            <name>mapreduce.framework.name</name>
            <value>yarn</value>
    </property>
    <property>
            <name>mapreduce.application.classpath</name>  
            <value>$HADOOP_MAPRED_HOME/share/hadoop/mapreduce/*:$HADOOP_MAPRED_HOME/share/hadoop/mapreduce/lib/*</value>
    </property>

修改yarn-site.xml文件:
$ sudo vim /usr/local/hadoop/etc/hadoop/yarn-site.xml

在<configuration></configuration>添加以下信息:
    <property>
            <name>yarn.nodemanager.aux-services</name>
            <value>mapreduce_shuffle</value>
   </property>
   <property>
            <name>yarn.nodemanager.env-whitelist</name>        
            <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
   </property>

配置完文件后,就可以启动服务

$:/usr/local/hadoop/sbin/start-yarn.sh

通过jps查看成功后就可以通过 http://localhost:8088/ 查看MapReduce管理界面

登录成功

3、总结

至此,hadoop的环境就搭建完毕,可以进行机器学习等方面的训练。虽然遇到很多坑,但是通过查阅资料也可以解决,如果遇到一些不能一下子解决的,可以通过查询hadoop文件夹下的logs文件夹里面的日志信息可以得到error详细的说明。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,233评论 6 495
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,357评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,831评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,313评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,417评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,470评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,482评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,265评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,708评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,997评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,176评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,827评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,503评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,150评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,391评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,034评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,063评论 2 352