环境搭建
1、测试Hadoop集群环境
首先我们已经成功部署安装了一个hadoop集群,然后本地可以连接到集群的Master节点。
假设集群Master节点IP:192.168.2.144。
这里我们直接在浏览器打开:http://192.168.2.144:50070,如果能访问到HDFS的Web端界面,就可以了。
2、下载安装Eclipse
这里我们在Eclipse官网下载对应版本的Eclipse:https://www.eclipse.org/downloads/packages/release/mars/2/eclipse-ide-java-developers
然后进行安装即可,我安装的是Eclipse IDE for Java Developers。
3、安装配置Eclipse的Hadoop-Eclipse-Plugin插件
3.1、下载Hadoop-Eclipse-Plugin
首先需要下载一个Hadoop的Eclipse插件,可以下载Github 上的 hadoop2x-eclipse-plugin(备用下载地址:http://pan.baidu.com/s/1i4ikIoP)。
3.2、安装Hadoop-Eclipse-Plugin插件
Hadoop-Eclipse-Plugin下载好后,解压出hadoop-eclipse-plugin-2.6.0.jar文件,将该文件放置到Eclipse安装目录的plugins文件夹下即可。
注:如果是macOS系统,需要打开包内容,放置在dropins目录下。
4、配置Eclipse连接Hadoop集群
4.1、给Eclipse配置Hadoop安装目录
在Eclipse中配置需要配置好本地的Hadoop安装的目录:
4.2、给Eclipse配置集群地址
配置好上述步骤后,eclipse工作窗口右上角会出现Hadoop的标志:
4.3、给Eclipse配置一个Hadoop集群的location
然后填写好需要连接的集群信息:
4.4、查看HDFS
我们点击eclipse窗口右上角的resource标签:
之后就可以在eclipse中访问hdfs中的数据。
至此,eclipse环境基本配置好。
4、配置Eclipse中执行MapReduce任务
4.1、创建WordCount项目
打开eclipse的File -> New -> Other -> Map/Reduce Project,输入项目名称WordCount,后然点击Finish。
4.2、添加依赖
右键点击项目、依次打开菜单Build Path -> Configure Build Path:
点击Libraries->Add Library,注意依赖包要放置在classpath上:
选择User Library:
4.3、创建一个WordCount类
创建一个类,填写包名称org.apache.hadoop.examples, 类名: WordCount
并编写好MapReduce程序代码。
4.4、配置MapReduce的输入输出路径
一般我们会将MapReduce的输入输出路径配置到driver类中:
我们首先需要右键点击MapReduce的Driver程序,选择配置菜单:
4.4.1、配置HDFS的输入输出路径
如果执行结果出现Permission denied报错,是由于文件读写权限问题,需要在集群中执行如下命令,修改集群文件读写权限:
hadoop fs -chmod 777 /
4.4.2、配置本地文件的输入输出路径
如果文件的输入输出路径非集群,而是在本地,则路径用file:处理即可。