Hadoop及Hadoop伪分布式配置(Ubuntu)

Hadoop简介

Hadoop是分布式系统的基础架构,它是根据Google公司发表的MapReduce和Google文件系统的论文自行实现而成。所有的Hadoop模块都有一个基本假设,即硬件故障是常见情况,应该由框架自动处理。Hadoop实现了名为MapReduce的编程范式:应用程序被分割成许多小部分,而每个部分都能在集群中的任意节点上运行或重新运行。此外,Hadoop还提供了分布式文件系统,用以存储所有计算节点的数据,这为整个集群带来了非常高的带宽。MapReduce和分布式文件系统的设计,使得整个框架能够自动处理节点故障。它使应用程序与成千上万的独立计算的电脑和PB级的数据连接起来。

主要子项目

  • Hadoop Common:在0.20及以前的版本中,包含HDFSMapReduce和其他项目公共内容,从0.21开始HDFS和MapReduce被分离为独立的子项目,其余内容为Hadoop Common
  • HDFS:Hadoop分布式文件系统(Distributed File System)-HDFS(Hadoop Distributed File System)
  • MapReduce:并行计算框架,0.20前使用org.apache.hadoop.mapred旧接口,0.20版本开始引入org.apache.hadoop.mapreduce的新API

Hadoop的配置分为三种:单机模式,伪分布式,分布式。对于个人来说,搭建Hadoop分布式还是需要一点代价的,至少你需要一个强大的内存去供应几台虚拟机的运行。从学习的层面上考虑,玩一玩Hadoop的单机或者伪分布式还是不难的。本文将详细介绍一下Ubuntu环境下Hadoop伪分布式的配置。


环境

  • 64位的Ubuntu操作系统
  • JDK1.8
  • Hadoop-2.7.1

Hadoop的安装一般是在Linus下完成的,对于新手来说,Ubuntu操作系统是个十分不错的选择。它既提供了可视化的界面,又能够使用Linus的必备神器——终端。无论是使用Linus操作系统还是使用虚拟机中的Ubuntu都无关紧要。
Hadoop的运行是基于Java环境的基础上的,因此少不了JDK的安装与配置。目前JDK的版本中兼容性最高的还是JDK1.8,新版本的JDK并不支持Hadoop等一系列产品。
再者就是Hadoop的版本选择。这里有一个大大的坑。如果小伙伴们只想尝试一下Hadoop这一个应用程序,那对于版本就没必要太多的要求。但是如果想要更多的尝试,诸如:Hadoop,HBase,Hive,ZooKeeper等,那么版本选择一定要慎之又慎。因为Hadoop的相关产品之间的版本并不完全相容。如果版本选择不当,那么后续操作中最大的问题就是版本冲突造成的。为了兼容后续安装的HBase,我这里选择了兼容性比较高的Hadoop-2.7.1。


伪分布式的配置

JAVA环境的安装和配置

  1. 首先从Oracle官网下载Linus版本的JDK1.8,如图1-1
1-1-1

Oracle官网下载似乎需要注册一个Oracle账户,而且加载速度还非常非常慢,这真的很让人受不了。这里提供一个百度网盘下载的地址,提取码:zh62。

  1. 转到JDK下载包目录下,用tar命令将其解压到当前目录下。

我的JDK包下载在自定义的目录下:
JDK包下载目录:~/Downloads/JDK
JDK包将要安装到目录:/usr/lib/JDK
如果你没有设置过下载目录,浏览器默认下载在~/Downloads下(~表示宿主目录,即你的用户名目录下),使用以下命令将JDK解压到指定目录($表示普通管理员权限,即用户自己):

$ sudo tar -zxvf ~/Downloads/JDK/jdk-8u221-linus-x64.tar.gz
1-2-1

(备注:代码部分是在宿主目录下执行的,而截图是在hadoop压缩包所在目录下执行的,注意区分。./表示当前目录下)
将解压后的JDK包移动到/usr/lib目录下:

$ sudo mv /usr/lib/jdk-8u221-linus-x64/jdk1.8.0_221 /usr/lib

(备注:如果以上两部出现问题,也可以使用鼠标手动执行)

将转移的名为jdk1.8.0_221的解压包重命名为JDK

$ sudo mv /usr/lib//jdk1.8.0_221 /usr/lib/JDK
1-2-2

跳转到/usr/lib目录下就可以发现重命名的JDK文件夹了,进入该文件夹,用ls命令可以查看该文件夹的文件,如图2-2所示。

  1. 配置JDK环境变量

首先打开用户配置文件,添加JDK的安装路径:

$ gedit ~/.bashrc

向打开的.bashrc配置文件中添加jdk路径:

export JAVA_HOME=/usr/lib/JDK
export JRE_HOME=/usr/lib/JDK/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH

(备注:JAVA_HOME和JRE_HOME是你自己的JDK安装目录,也就是刚刚移动到/usr/lib目录下的那个解压包目录

1-3-1

保存之后关闭.bashrc配置文件,使用source使配置文件重新加载:

$ source ~/.bashrc

然后小伙伴们就可以尝试输入java -version来测试一下JDK是否配置完毕了

$ java -version
1-3-2

当看到以上界面时,说明你的JDK已经配置完成了(这里会输出JDK的版本信息,还是建议小伙伴们使用JDK1.8)。


SSH环境的安装和配置

集群、单节点模式都需要SSH登陆(类似于远程登陆,你可以登陆某台Linus主机),Ubuntu默认已经安装了SSH client,此外还需要安装SSH server。可以使用apt-get的方式进行安装:

$ sudo apt-get install openssh-server

安装完成后,使用以下命令登陆本机:

$ ssh localhost

首次登陆时需要输入密码的,如图2-0-1所示。

2-0-1

按照上方提示,输入自己的用户登录密码就可以了(也就是开机密码)。当看到以下界面表明已经成功登陆本机了:

2-0-2

你以为这样就完了吗?其实没有。此时是登录成功了,但是每次登陆都需要输入密码,不烦吗?如果你觉得不烦,那么当我没说。因为刚开始我也是这么认为的。结果启动Hadoop的时候,我就后悔了。如果此时没有设置免密码登陆,那么在启动Hadoop时,每启动一个节点就需要输入一次密码。大约每次启动Hadoop都需要输入三次密码,这确实很不方便啊!我后来也是花了很大的功夫才解决这个问题。如果你这都忍受,那我也就无言以对了。你可以直接配置Hadoop了。但是还是建议大家在此配置免密码登陆。可以使用以下命令设置:

$ cd ~/.ssh/                             # 若没有该目录,请先执行一次ssh localhost
$ ssh-keygen -t rsa                      # 提示按回车就可以
$ cat ./id_rsa.pub >> ./authorized_keys  # 加入授权
2-0-3
2-0-4

此时就方便多了。然后我们又可以继续往下走了。


伪分布式模式的配置

  1. Hadoop官网下载Hadoop压缩包。
3-1-1

这里再强调一遍:因为Hadoop与其他产品,如HBase等,存在版本兼容性问题(只玩Hadoop的自行略过),因此Hadoop版本选择一定要慎重。这里我选择了Hadoop-2.7.1,与HBase-2.0.6是兼容的,亲测有效。
(备注:高版本的Hadoop与HBase(我曾以Hadoop-2.8.3+与HBase-2.0.6搭配测试过)会出现问题,比如在开启HBase之后,HMaster会莫名其妙的挂掉,又或者stop-hbase.sh命令无法关闭HRegionServer等。)

3-1-1

下面的步骤就与安装JDK时差不多了。

  1. 转到Hadoop下载包目录下,用tar命令将其解压到当前目录下。

我的Hadoop包下载在自定义的目录下:
Hadoop包下载目录:~/Downloads/Hadoop
Hadoop包将要安装到目录:/usr/local/Hadoop
使用以下命令将Hadoop下载包解压到指定目录

$ sudo tar -zxvf ~/Downloads/Hadoop/hadoop-2.7.1.tar.gz -C /usr/local

(此步骤支持手动)

3-2-1

/usr/local目录下的hadoop-2.7.1重命名为Hadoop,使用命令如下:

$ sudo mv /usr/local/hadoop-2.7.1 /usr/local/Hadoop

然后就可以转到/usr/local目录下查看Hadoop文件夹了:

3-2-2

这个时候在/usr/local/Hadoop/bin目录下,我们就可以使用hadoop version命令查看Hadoop是否安装成功了。但是为了方便使用,我们还是要配置环境变量,这样直接在宿主目录下就可以使用相关命令。
为了避免在后续操作中因为对文件的权限问题而导致部分命令无法正确执行,在此处我们用chmod命令赋予用户对文件的权限:

$ sudo chmod -R a+w /usr/local/Hadoop
  1. 配置Hadoop的环境变量

与配置JDK环境变量相似,我们首先打开用户配置文件.bashrc文件:

$ gedit ~/.bashrc

向打开的.bashrc配置文件中添加Hadoop解压包的安装路径:

export HADOOP_HOME=/usr/local/Hadoop
export PATH=${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin:$PATH
3-3-1

然后重新加载配置文件:

$ source ~/.bashrc

这时候如果不出意外的话,我们在宿主目录下输入hadoop version是可以查看到版本信息的:

$ hadoop version
3-3-2

当看到以上界面时,表明Hadoop安装成功了。但不要高兴的太早,我们还没有开始配置伪分布式。下面开始配置伪分布式。

  1. 配置Hadoop伪分布式

Hadoop伪分布式的搭建需要修改两份配置文件:core-site.xmlhdfs-site.xml

  • 修改core-site.xml

core-site.xml目录:/usr/local/Hadoop/etc/hadoop/core-site.xml
仍然使用gedit方式打开该文件:

$ sudo gedit /usr/local/Hadoop/etc/hadoop/core-site.xml

你会发现该文件除了注释内容之外,只有两行内容:

<configuration>
</configuration>
3-4-1

我们需要将其修改为:

<configuration>
    <property>
        <name>hadoop.tmp.dir</name>
     <value>file:/usr/local/Hadoop/tmp</value>
        <description>Abase for other temporary directories.</description>
    </property>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>
3-4-2

上面的文本中<value>file:/usr/local/Hadoop/tmp</value>是我的Hadoop的安装目录,此处需要自己修改一下。

  • 修改hdfs-site.xml

hdfs-site.xml目录:/usr/local/Hadoop/etc/hadoop/hdfs-site.xml
修改方法与前者相同,使用gedit打开该文件:

$ sudo gedit /usr/local/Hadoop/etc/hadoop/hdfs-site.xml

文件的初始内容也只有以下两行:

<configuration>
</configuration>
3-4-3

我们需要将其修改为:

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>    <value>file:/usr/local/Hadoop/tmp/dfs/name</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
<value>file:/usr/local/Hadoop/tmp/dfs/data</value>
    </property>
</configuration>
3-4-4

与上面相同,注意修改两处<value>file:/usr/local/Hadoop/tmp/dfs/data</value>路径部分。
至此,Hadoop伪分布式的配置就完成了。下面开始测试一下你的Hadoop搭建成功了没有?

  1. 初始化Hadoop,并开启Hadoop

配置完成后,我们对Hadoop进行初始化,在/usr/local/Hadoop目录下,执行以下命令(已经配置了环境变量的,可以直接在宿主目录下进行):

./bin/hdfs namenode -format
3-5-1

这一步可能需要等一小会儿,当看见以下字样,说明初始化成功:

3-5-2

进行到这里,基本上就没有什么大问题了。我们可以试着启动Hadoop了,使用start-dfs.sh来启动Hadoop:

$ start-dfs.sh

第一次启动Hadoop的时候,会出现SSH登陆提示,输入yes/Y即可(具体看提示)。可以使用jps命令查看已运行的活动及其所占用的端口,如图3-5-3所示:

3-5-3

我们可以使用stop-dfs.sh命令关闭已经启动的Hadoop:

$ stop-dfs.sh
3-5-4

OK!到此为止,恭喜你的Hadoop伪分布式搭建成功!小伙伴们可以使用Hadoop运行一些简单的实例,过过瘾。

本文的主题内容到此就结束了。希望我的博客能对你有一些帮助。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,142评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,298评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,068评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,081评论 1 291
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,099评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,071评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,990评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,832评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,274评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,488评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,649评论 1 347
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,378评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,979评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,625评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,796评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,643评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,545评论 2 352