hadoop笔记1--单机和伪分布式模式

hadoop是处理大数据的得力帮手,它主要分为三种模式:

单机模式;
伪分布式模式;
完全分布式模式;

在这篇文章中,主要来看看在CentOS7中进行hadoop的单机和伪分布式的环境搭建。(在Ubuntu下安装也一样。)

因为自己设备的条件,就先在虚拟机里搭建伪分布式的环境来进行hadoop的学习。

以下的环境是需要java环境才能进行,我的电脑中的java是:


java环境

单机模式

先来看看单机模式,单机模式比较简单。

首先在官网下载hadoop,网站地址为:http://hadoop.apache.org/releases.html
我这里用的是hadoop2.6.5的版本。

点击binary下载即可。

下载完毕后,将下载下来的包放在/usr/local目录下:

然后解压压缩包:

# 如果遇上权限不够,就加sudo,或用root用户进行
tar -xvf hadoop-2.6.5.tar.gz
# 将减压出来的hadoop-2.6.5改名为hadoop(改不改随便)
mv hadoop-2.6.5 hadoop

完成后我们就可以进入hadoop文件夹看看了:

hadoop目录

这时候进入etc/hadoop目录,那个目录里面装的东西关于hadoop的一些配置文件,进去后可以看一看:

etc/hadoop目录

其中我们先来配置关于环境的东西:

vim hadoop-env.sh

可以看到里面的内容:

hadoop-env.sh

我们需要看的就是JAVA_HOME那个变量,如果不是我们系统中java的路径就把它改成java的路径。下面那个HADOOP_CONF_DIR也可以改为自己电脑hadoop文件夹中etc/hadoop那个路径。

然后在终端中source一下:

source hadoop-env.sh

接着进入前面的bin目录下看看

cd ../../bin
hadoop/bin目录

运行hadoop试试看:

./hadoop version
打印信息

输出如上信息,就说明hadoop的单机模式成了。

再来运行个hadoop给的例子程序跑跑。

为了测试,先新建一个目录Input:

mkdir Input

在里面放上一个txt文件,随便写一些英文在里面吧,比如说我的乱写了几个:

test.txt

然后在shell中执行:

wordcount例子程序

执行完毕后,到hadoop文件夹内,会看到出现了Output目录,打印出里面的东西来看看:

统计出了单词的个数

可以看到,英文单词的个数被统计了出来。

伪分布式模式

我们单机的环境中,比较常用的是伪分布式。那么接下来就来看看伪分布式的做法,其实也就是接着上面来。

要进行伪分布式,就是配置几个文件和改改环境变量。

上面说了,配置文件都在etc那个目录下,因此需要进入那个目录,然后修改里面的core-site.xml、hdfs-site.xml两个文件。

可以先看看官方文档上是怎么修改的:
http://hadoop.apache.org/docs/r2.6.5/hadoop-project-dist/hadoop-common/SingleCluster.html#Pseudo-Distributed_Operation

里面的Pseudo-Distributed Operation介绍了需要修改的文件:

那么我们就安装它的这个配置,不过再稍微增加一些东西。先打开core-site.xml,配置如下:

core-site.xml

这里比官方的多了一个配置,这样做可以把tmp目录指定在自己设置的位置,而tmp是用来存放零时文件,比例运行过程中的文件等。如果不指定,系统会利用linux自己的/tmp目录来存放,这样在重启后就不在了。

hdfs-site.xml的配置如下:


hdfs-site.xml

比官方多了两个东西,一个是namenode,一个是datanode。namenode和datanode文件夹默认是放在tmp里面的,这2个文件夹用来存储hdfs里的内容。 这里配置指定了那两个目录的位置。

然后在相应的目录中创建namenode和datanode的目录:

mkdir dfs
mkdir dfs/name
mkdir dfs/data

配置完成后,跟着官方走,下一步是设置无密码登陆的ssh。

如果没有安装ssh,那就用yum安装就是了。安装完毕后,生成密钥对:

ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
生成密钥对

然后用cat命令追加公钥:

cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

这就是一个读写过程。

然后就应该可以进行ssh无密码登录了:

ssh localhost

登录本机之后,可以开始正式开启hadoop了。首先我们可以把hdfs看成和普通新的硬盘一样,刚买来的新硬盘需要进行格式化,同样的,我们先进行hdfs的格式化:

bin/hdfs namenode -format 

接下来我们就来开启hdfs文件系统吧:

sbin/start-dfs.sh 
开启hdfs

然后通过jps命令查看一下:

可以看到,服务启动了哦。

用网页查看就是以下状态,输入localhost:50070:

以上内容就完成了hdfs的伪分布式。本来官网后面还有yarn的配置,就放在介绍yarn的时候吧。这样子已经能够进行hdfs的一些编程操作了。

下一节介绍要进行hadoop开发的eclipse环境搭建

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,362评论 5 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,330评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,247评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,560评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,580评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,569评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,929评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,587评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,840评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,596评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,678评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,366评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,945评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,929评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,165评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,271评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,403评论 2 342

推荐阅读更多精彩内容