虚拟机上搭建伪分布式Hadoop集群(二)

一. 软件准备:

  1. JDK 8u251
  2. Hadoop 2.7.1
    首先下载JDK和Hadoop的安装包,可在本地下载好后将文件直接拖进虚拟机。
    (下载链接:链接:https://pan.baidu.com/s/1Ia18dz_U4W4NpZwvNvdoiQ 提取码:mmqz )

二. 安装JDK

  1. 进入JDK安装包的目录中,进行解压缩
  1. 然后配置环境变量
sudo vim /etc/profile

进入profile文件后,来到末尾,添加 JAVA_HOME的路径(即JDK解压缩包的路径)


然后使环境变量生效:

source /etc/profile

即完成了JDK的安装,使用 java -version 命令即可查看是否安装正确。


正确的配置安装后即可出现该提示

三. 安装Hadoop:

  1. 进入Hadoop安装包的目录中,解压缩:


  2. 配置环境变量:
    进入Hadoop解压后的文件夹,跳转至 /etc/hadoop 目录,打开 hadoop-env.sh 文件:


然后进入编辑模式(按 i 键即可),找到 JAVA_HOME 这一行:


然后将 JAVA_HOME 改写成为本文第二步中 /etc/profile 中 JAVA_HOME 的路径:


esc + :wq 保存退出即可。

检验是否安装成功, 返回 hadoop的总目录,输入:

bin/hadoop version

若显示:



则代表安装成功!

若显示:



则代表安装失败!

四. 单机模式下运行官方Grep案例:

Hadoop官网中给出的Grep案例:


  1. 创建 input 文件夹:


  2. 将 /etc/hadoop 目录下后缀名带有 .xml 的文件全部复制至 input文件夹:


  3. 然后运行Grep案例:


有如下几个需要注意的地方:
(i). 若提示 “hadoop: command not found”,那么则需要把 hadoop jar share ... 写成 bin/hadoop jar share ....

(ii). 一定不能提前创建输出文件夹,否则会报错(hadoop会自动生成输出文件夹)

(iii). 名字太长的时候可以用 TAB 键自动补全

  1. 运行完Grep案例后可以看见 hadoop文件夹 下多出了一个 output 文件夹


进入output文件夹,使用 cat 命令即可查看运行结果:


最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。