安装与配置大数据软件

配置所需软件:

①、VirtualBox-5.2.0-118431-Win.exe

②、Ubuntu14.04.5

③、jdk-8u151-linux-x64.tar.gz

④、hadoop-2.7.3.tar.gz


(一)、下载并安装VirtualBox

        默认安装


(二)、安装Ubuntu14.04.5







然后“继续”,“下一步”

信息填完后点击继续安装完成后会重新进入系统。


(三)、创建用户hadoop

$ sudo  adduser  hadoop

并按照提示输入hadoop用户的密码,例如密码设定为 hadoop。注意输入密码的时候是不显示的。并将hadoop用户添加进sudo用户组

$ sudo  usermod  -G  sudo  hadoop

输入

$ cd ../     #进入到home目录

$ cd ../    #进入到根目录

输入

$ sudo gedit ~/etc/sudoers    #打开sudoers配置文件

root     ALL = (ALL:ALL)    ALL下面添加如下代码:

hadoop    ALL = (ALL:ALL)    ALL

保存并退出。

注销切换成hadoop用户



(四)、安装JDK

    ①下载JDK

              jdk-8u151-linux-x64.tar.gz

    ②安装解压

将下载下来的 .tar.gz 文件解压。使用如下命令解压:

$ sudo  tar  zxvf  ./jdk-8u151-linux-x64.tar.gz

为了方便管理,将解压后的文件移至另一个目录下

$ sudo  mkdir  /usr/lib/jvm

$ sudo  mv  jdk1.8.0_151  /usr/lib/jvm

③设置环境变量

编辑用户主目录下的.bashrc文件

$ vim  ~/.bashrc

在该文件的末尾追加以下几行代码:

export  JAVA_HOME=/usr/lib/jvm/jdk1.8.0_151

export  CLASSPATH=${JAVA_HOME}/lib

export  PATH=${JAVA_HOME}/bin:$PATH

为了让更改立即生效,执行如下命令:

$ source  ~/.bashrc

④验证JDK

$ java  -version


(五)、安装Hadoop2.7.3

①下载hadoop2.7.3

hadoop-2.7.3.tar.gz

②安装hadoop-2.7.3

进入到下载目录

将下载下来的 .tar.gz 文件解压。使用如下命令解压:

$ sudo  tar  zxvf  hadoop-2.7.3.tar.gz

为了方便管理,将解压后的文件移至另一个目录下

$ sudo  mv  hadoop-2.7.3  /usr/local/hadoop

为安装目录添加权限

$ sudo  chmod  777  /usr/local/hadoop

③配置hadoop2.7.3

编辑用户主目录下的.bashrc文件

$ gedit  ~/.bashrc

$ vim  ~/.bashrc

在该文件的末尾追加以下几行代码:

#HADOOP START

export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_151

export HADOOP_INSTALL=/usr/local/hadoop

export PATH=$PATH:$HADOOP_INSTALL/bin

export PATH=$PATH:$HADOOP_INSTALL/sbin

export HADOOP_MAPRED_HOME=$HADOOP_INSTALL

export HADOOP_COMMON_HOME=$HADOOP_INSTALL

export HADOOP_HDFS_HOME=$HADOOP_INSTALL

export YARN_HOME=$HADOOP_INSTALL

export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_INSTALL/lib/native

export HADOOP_OPTS="-Djava.library.path=$HADOOP_INSTALL/lib"

#HADOOP END

保存退出后,激活新加的环境变量

$ source   ~/.bashrc

④验证安装是否成功

$ cd  /usr/local/hadoop

$ mkdir  ./input

$ cp ./etc/hadoop/*.xml ./input    #将配置文件作为输入文件

$   ./bin/hadoop  jar  ./share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar grep  ./input  ./output  'dfs[a-z.]+'

$ cat  ./output/*    #查看运行结果

出现以下结果即可。

(六)、安装SSH、配置SSH无密码登陆

$ sudo apt-get install openssh-server

$ ssh localhost

输入yes

$ exit        #退出刚才的 ssh localhost

$ cd ~/.ssh/        #若没有该目录,请先执行一次ssh localhost

$ ssh-keygen -t rsa       #会有提示,都按回车就可以

$ cat ./id_rsa.pub >> ./authorized_keys    #加入授权

然后输入

$ ssh localhost

结果如下:



(七)、安装hadoop-伪分布式配置

Hadoop 可以在单节点上以伪分布式的方式运行,Hadoop 进程以分离的 Java 进程来运行,节点既作为 NameNode 也作为 DataNode,同时,读取的是 HDFS 中的文件。

①修改配置文件

Hadoop 的配置文件位于 /usr/local/hadoop/etc/hadoop/ 中,伪分布式需要修改2个配置文件 core-site.xml hdfs-site.xml 。Hadoop的配置文件是 xml 格式,每个配置以声明 property 的 name 和 value 的方式来实现。

修改配置文件 core-site.xml (通过 gedit 编辑会比较方便: gedit ./etc/hadoop/core-site.xml),将当中的

<configuration>

</configuration>

修改为如下配置:

<configuration>

<property>


<name>hadoop.tmp.dir</name>

< value> file:/usr/local/hadoop/tmp< /value>

< description> Abase for other temporary directories.< /description>

</property>

< property>

<name>fs.defaultFS</name>

<value>hdfs://localhost:9000</value>

</ property>

</ configuration>

同样的,修改配置文件 hdfs-site.xml

<configuration>

    <property>

        <name>dfs.replication</name>

                <value>1</value>

         </property>

         <property>

                  <name>dfs.namenode.name.dir</name>

              <value>file:/usr/local/hadoop/tmp/dfs/name</value>

</property>

<property>

<name>dfs.datanode.data.dir</name>

<value>file:/usr/local/hadoop/tmp/dfs/data</value>

</property>

</configuration>

执行 NameNode 的格式化:

./bin/hdfs  namenode  –format

成功的话,会看到 “successfully formatted” “Exitting with status 0” 的提示,若为 “Exitting with status 1” 则是出错

③开启 NameNode 和 DataNode 守护进程。

./sbin/start-dfs.sh

关闭守护进程

./sbin/stop-dfs.sh

若出现以下SSH提示,输入yes即可。


④通过jps查看启动的Hadoop进程


⑤运行Hadoop伪分布式实例

./bin/hdfs  dfs  -mkdir -p  /usr/hadoop

./bin/hdfs  dfs  -mkdir  input

./bin/hdfs  dfs  -put  ./etc/hadoop/*  .xml  input

./bin/hdfs  dfs  -ls  input

./bin/hadoop  jar  ./share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar  grep  ./input  ./output  'dfs[a-z.]+'

./bin/hdfs  dfs  -cat  output/*


⑥成功启动后,可以访问 Web 界面

http://localhost:50070 查看 NameNodeDatanode 信息,还可以在线查看 HDFS 中的文件。



(八)、启动YARN

①首先修改配置文件 mapred-site.xml,这边需要先进行重命名:

②编辑mapred-site.xml 文件,

gedit  ./etc/hadoop/mapred-site.xml

<configuration>

    <property>

        <name>yarn.nodemanager.aux-services</name>

        <value>yarn</value>

    </property>

</configuration>

修改配置文件 yarn-site.xml

<configuration>

    <property>

       <name>yarn.nodemanager.aux-services</name>

       <value>mapreduce shuffle</value>

    </property>

</configuration>

④启动 YARN 了(需要先执行过 ./sbin/start-dfs.sh)

./sbin/start-dfs.sh    #启动YARN

./sbin/mr-jobhistory-daemon.sh  start  historyserver    #开启历史服务器,才能在Web中查看任务运行情况

关闭YARN

./sbin/stop-yarn.sh

启动 YARN 有个好处是可以通过 Web 界面查看任务的运行情况:http://localhost:8088/cluster,如下图所示


不启动 YARN 需重命名 mapred-site.xml

如果不想启动 YARN,务必把配置文件 mapred-site.xml 重命名,改成 mapred-site.xml.template,需要用时改回来就行。

否则在该配置文件存在,而未开启 YARN 的情况下,运行程序会提示 “Retrying connect to server: 0.0.0.0/0.0.0.0:8032” 的错误,这也是为何该配置文件初始文件名为 mapred-site.xml.template

⑤开启 NameNode 和 DataNode 守护进程。

./sbin/start-dfs.sh

到此hadoop大数据已配置完成。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,332评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,508评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,812评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,607评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,728评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,919评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,071评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,802评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,256评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,576评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,712评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,389评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,032评论 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,798评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,026评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,473评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,606评论 2 350

推荐阅读更多精彩内容