在IDE中开发Hadoop程序
一般我们编写代码都会在IDE中而不是在记事本中开发,在虚拟机或者服务器上编写代码也不是很方便,哦,当然在linux图形界面下用IDE开发也是比较方便的,如果还是比较习惯在windos下开发,那这篇文章应该对你有帮助哦,下面咱们一起在Eclipse中编写第一个Hadoop程序吧。
在eclipse中创建项目,新建lib目录。
将Hadoop项目所需要的jar包copy到lib目录下。
因为我使用的Hadoop版本是2.7
,所以本例中使用的jar包均为2.7
版本的,你可以从官网下载。
下载好之后打开share/hadoop
的common
目录和hdfs
目录并将其中的jar
包全部拷贝至项目的lib
目录下。
选中所有的jar包添加到项目依赖:
我们先上传一些数据到虚拟机的HDFS中,之后在window系统中读取我们上传的数据。
编辑并上传:
查看是否上传成功:
在Eclipse中编写代码:
好了现在我们运行程序,应该会出现如下结果:
这是因为我们没有log4j
的配置文件,可以去网上或者以前的项目复制一个,放在src
目录下即可。
再次运行程序,会提示: java.io.IOException: HADOOP_HOME or hadoop.home.dir are not set
这是因为我们在windows下开发Hadoop程序,要远程调试也需要在windows中配置Hadoop环境变量。
配置好之后重启,然后再次运行程序。
这个错误的原因是,我们如果要在window下运行hadoop程序,在HADOOP_HOME\bin
下还需要有winutils.exe
才行,可以去https://github.com/steveloughran/winutils
下载对应的文件。
下载好之后,我们将下载到bin
目录下所有文件都解压HADOOP_HOME/bin
下,然后再次运行程序。
然后应该会出现如下错误:哈哈不要放弃,我们再来搞定它。
我们先来分析原因,这是一个与HDFS的远程连接失败的问题,可能的原因应该有:1.地址错误,2.防火墙问题,3.linux网络配置问题,我们一个一个的来排查。
地址确实有问题:
如果我们写的直接是虚拟机的ip地址,那默认访问的应该是8020
端口,还记得吗,我们在Hadoop配置core-site.xml
文件的时候设置的是9000
端口,所以需要修改端口号。
接下来继续访问,还是会报相同的错误,我们来尝试关闭防火墙。
ufw disable
再次运行程序,还是报错,这个时候我们来查看一下ubuntu的hosts
文件设置,原来是我们没有绑定ip。
删除第二行127.0.0。1
映射的本机名,将本机ip,映射本机名称,在图中红线处加入如下代码:本机ip 本机名称
然而,再次运行程序发现还是不行,我们来检查一下Hadoop的配置文件。
检查core-site.xml
。
发现设置的地址是localhost
,意味着只有localhost
地址或者127.0.0.1
才能访问,而IP地址不能直接访问,所以我们将localhost
改为本机ip。
删除hadoop的数据文件,然后重新创建文件夹,重新format,最后重启Hadoop:
hadoop namenode -format
stop-dfs.sh
start-dfs.sh
好了到了现在,我们在ubuntu中通过ip地址是可以访问HDFS了,如图:
然后我们在windows中测试同样的代码:
哈哈,真是生命不息,BUG不止,我们接着来解决这个问题。
折腾了许久,发现原来还需要将winutis.exe
和hadoop.dll
,复制到C://windows
和C://windows//System32
目录下,这是正解!
再次运行程序:
功夫不负有心人,好了,我们已经可以在windows系统中开发Hadoop程序了。
如果我们以后经常在Eclipse中编写Hadoop程序,可以安装Hadoop的Eclipse插件,这样更加方便:https://github.com/winghc/hadoop2x-eclipse-plugin
原创内容,转载请注明出处。