【至于我为什么要写这一系列文章,目的为“缝合”,即把别人的知识枝丫缝合到自己的知识主干上,把别人的东西化为自己的东西。通俗地说,就是要写出来。当然,这是知识缝合的方式之一。】
对于一个没有读过任何源代码的纯小白,hadoop源码错综复杂,实在不知道如何下手。在网上找了一通,也没有得出个所以然,但依旧存有想学习hadoop源码的幻想。终于发现一篇博客,从main()函数入口,顺藤摸瓜,窥探hadoop内部的实现。在这个方法里,我先不管按模块读代码,就从main()函数这个入口进去,一窥究竟。如若,过段时间后,我对hadoop源码的整体架构有个进一步了解后,我可以再按模块来读。
那么,该从哪里找到hadoop的main()函数呢?——从运行脚本入手。
在hadoop的bin目录下,有个start-all.sh(现在建议运行start-dfs和start-mapped.sh来替代)运行脚本,用来启动hadoop。
我们闲话少叙,看看start-all.sh内部干了些什么。
hadoop-config.sh这几句应该是加载配置文件,我们不细究。
接下来,该脚本又运行了bin目录下的start-dfs.sh和start-mapred.sh这两个脚本。其实,就是我前面说的该脚本的建议运行方法。我们都知道,hadoop主要由hdfs和mapreduce两部分组成,所以,从字面上看,这两个运行脚本要做的是分别启动这两个模块。
在这里,我们以start-dfs.sh为例,看看接下来又发生了什么。
我们打开start-dfs.sh,看看它里面又做了些啥呢。
除了加载配置文件外,关键的有这三句代码:
可以看到,该脚本接下来又运行了bin目录下的hadoop-daemon.sh这个脚本,并且分别传递了不同参数。从字面意思上,我们可以看到,hadoop-daemon.sh肯定是启动了namenode、datanode、secondarynamenode,而这又是hdfs重要组成模块。
让我们继续顺藤摸瓜,看看在hadoop-daemon.sh里面又做了些什么。hadoop-daemon.sh看起来有点复杂,但我们可以发现最为关键的一句:
我们可以看到,该脚本又运行了bin目录下的hadoop脚本,且有$command这个参数。这里,$command有前面提到的namenode、datanode、secondarynamenode。
不要急,接着我们在看hadoop里面发生了什么。
首先,我们可以看到hadoop的usage,可以看到之前我们传过来的三个command以及它们的作用说明。当然还有很多很多其它的command,只是没有在启动过程中用到。
接下来,是JAVA_HOME、CLASSPATH、TOOL_PATH等配置。
接着,可以看到很多很多elif,用来判断传入进来的到底是哪个$COMMAND。我们可以截一部分图:
可以看到,对于不同的$COMMAND,该脚本设置了不同的CLASS。
在该脚本最终的JAVA程序运行代码语句(上面一个截图)里,我们可以推测,这个CLASS可能是JAVA程序的入口,也就是main()函数所在的地方。
为了验证我们的猜测,以namenode的CLASS为例,我们查看hadoop源码。果不其然,我们在org.apache.hadoop.hdfs.server.namenode.NameNode的java文件里,找到了main()函数:
至此,我们终于找到了main()函数入口。其它的$COMMAND也可以用同样的方法找到对应的main()函数入口。
在这里,我也列举了几个$COMMAND对应的CLASS,方便以后查阅。
OVER:)