Hadoop源码学习——从"-ls /"开始认识FsShell(3)

闲话少叙,言归正传。这次,我们从"-ls /"命令入手,窥探一下hdfs。
hdfs模块提供了一个org.apache.hadoop.fs.FsShell类用来支持用户在终端的命令行操作。我们在使用终端时输入的命令,最终都会在FsShell这个类中执行。
首先,我们给FsShell类传递参数“-ls /”:


参数设置.jpg

然后找到“-ls /”命令执行运行的入口——main()函数:

public static void main(String argv[]) throws Exception {
    FsShell shell = new FsShell();
    int res;
    try {
      res = ToolRunner.run(shell, argv);
    } finally {
      shell.close();
    }
    System.exit(res);
  }

我们可以看到,首先,main()函数实例化一个FsShell对象,实例化FsShell对象的工作包括加载conf,初始化fs(FileSystem)和trash(Trash)两个成员变量为null。
接着,交给ToolRunner类去执行,ToolRunner的run方法的主要作用是解析参数。这里有个重要的辅助类提一下:GenericOptionsParser,具体是这个类来解析传入的参数。解析完参数后,ToolRunner 的run()方法又返回FsShell的run方法。注意:FsShell实现了Tool接口,然后实现了Tool接口的run方法
然后,我们看到FsShell的run方法。
FsShell的run方法首先检查参数(在上一步的ToolRunner的run方法中解析得到)的格式是否正确。接着,初始化FsShell

protected void init() throws IOException {
    getConf().setQuietMode(true);
  }

这里的getConf().setQuietMode(true),我并不懂,暂不深究。我们继续往下看。
接下来,就是具体的参数匹配工作了。例如,在“-ls /”这个例子中就会匹配到:

else if ("-ls".equals(cmd)) {
        if (i < argv.length) {
          exitCode = doall(cmd, argv, i);
        } else {
          exitCode = ls(Path.CUR_DIR, false);
        } 

如果给定了特定目录久执行doall方法,否则ls当前目录(Path.CUR_DIR)。因为这里我们给定了特定目录“/”,所以我们跳转到doall方法里去。
以ls命令为例,doall方法就是执行所有的ls命令后面的目录或文件的ls操作。例如,-ls <path1> <path2> <path3>。doall会以for循环的形式依次执行ls()这个方法:

else if ("-ls".equals(cmd)) {
          exitCode = ls(argv[i], false);
        }

我们紧接着跳转到ls()方法。

private int ls(String srcf, boolean recursive) throws IOException {
    Path srcPath = new Path(srcf); 
    FileSystem srcFs = srcPath.getFileSystem(this.getConf());
    FileStatus[] srcs = srcFs.globStatus(srcPath);

这是ls开头重要的三个步骤:
第一步:根据路径创建一个Path对象。创建过程会先检查该路径是否合法,然后将路径解析成uri(scheme://authority/path)格式;
第二步:根据上一步创建的Path对象获取FileSystem对象(具体获取过程我们在下一篇文章中单独讲,因为这里面涉及DFSClient、DistributedFileSystem、NameNode,内容较多)。这个FileSystem对象决定了我们要读取的文件是在哪个类型的文件系统中,例如hdfs或者本地文件系统。
第三步:在对应的文件系统中,获取对应路径下文件的属性(FileStatus)。这一步更重要,过程涉及DFSClient与NamNode之间的通信,即Hadoop ipc相关内容,也需要单独讲。
注意,在第三步中的srcPath这个参数,srcPath可以是一个具体的文件名字,也可以是文件名字的匹配模式,例如"/t",这种模式就可以匹配到/test和/tmp这两个文件,srcs.length也就是2了,而不是我之前以为的好像只能是1。*如果srcs.length>1,则不会打印此次ls的信息头(即发现文件的个数,“Found xxx items”)
在这里,我们先简单地说这三步做了什么。

在获取到FileStatus[] srcs后(假设我们这里获取到了srcs[2]={"/test","/tmp"}两个目录),就循环遍历srcs,执行ls:

for(int i=0; i<srcs.length; i++) {
      numOfErrors += ls(srcs[i], srcFs, recursive, printHeader);
    }

接着跳转到又一个ls方法(假设第一次循环传过来的参数是"/test")中:

private int ls(FileStatus src, FileSystem srcFs, boolean recursive,
      boolean printHeader) throws IOException {
    final String cmd = recursive? "lsr": "ls";
    final FileStatus[] items = shellListStatus(cmd, srcFs, src);

刚跳过来,又要跳到shellListStatus方法中去了:

private static FileStatus[] shellListStatus(String cmd, 
                                                   FileSystem srcFs,
                                                   FileStatus src) {
    if (!src.isDir()) {
      FileStatus[] files = { src };
      return files;
    }
    Path path = src.getPath();
    try {
      FileStatus[] files = srcFs.listStatus(path);

shellListStatus方法会首先判断路径src(/test)是目录还是文件,如果是文件则直接返回,如果是目录,则要调用listStatus方法获取该目录所有文件的status。
DistributedFileSystem类实现了FileSystem里listStatus()这个抽象方法。DistributedFileSystem类的list Status按两步获取一个目录下的所有文件。先取一部分数量的文件,如果没有其它的文件了,则获取结束。如果还有其它的文件,则循环获取该目录下的文件,直到获取完所有的文件。
然后,跳转到最近的一个ls方法中,继续执行。现在我们已经获取了一个目录下的所有文件信息(例如"/test/a","/test/b")。接下来就是打印所有文件的信息:

// 接着上面最近的ls方法
int maxReplication = 3, maxLen = 10, maxOwner = 0,maxGroup = 0;
      System.out.println("FsShell's ls's items.length: " + items.length);
      for(int i = 0; i < items.length; i++) {
        FileStatus stat = items[i];
        int replication = String.valueOf(stat.getReplication()).length();
        int len = String.valueOf(stat.getLen()).length();
        int owner = String.valueOf(stat.getOwner()).length();
        int group = String.valueOf(stat.getGroup()).length();

        if (replication > maxReplication) maxReplication = replication;
        if (len > maxLen) maxLen = len;
        if (owner > maxOwner)  maxOwner = owner;
        if (group > maxGroup)  maxGroup = group; /
                                                          }

一开始,我看不懂这段代码的意思,后来终于看明白了。这段代码用来/获取文件各个属性的最大字符宽度,以便规整文件信息打印的格式。举个例子,文件/test/a的owner是wuyi,文件/test/b的owner是wy, 那么,为了打印的时候格式规整,则/test/b的owner打印是也给定4个字符的宽度。

for (int i = 0; i < items.length; i++) {
        FileStatus stat = items[i];
        Path cur = stat.getPath();
        String mdate = dateForm.format(new Date(stat.getModificationTime()));
        System.out.print((stat.isDir() ? "d" : "-") + 
          stat.getPermission() + " ");
        System.out.printf("%"+ maxReplication + 
          "s ", (!stat.isDir() ? stat.getReplication() : "-"));
        if (maxOwner > 0)
          System.out.printf("%-"+ maxOwner + "s ", stat.getOwner());
        if (maxGroup > 0)
          System.out.printf("%-"+ maxGroup + "s ", stat.getGroup());
        System.out.printf("%"+ maxLen + "d ", stat.getLen());
        System.out.print(mdate + " ");
        System.out.println(cur.toUri().getPath());
        if (recursive && stat.isDir()) {
          numOfErrors += ls(stat,srcFs, recursive, printHeader);
        }
      }

接下来这段代码,就可以和我们在控制台看到的ls的输出结果可以对应起来了。例如:

-rw-r--r--   1 wuyi supergroup         92 2017-05-26 08:45 /test/a
-rw-r--r--   1 wuyi supergroup         63 2017-05-26 08:47 /test/b

至此,ls的整改流程也就通了。确切地说,应该是FsShell这段的流程。因为,我们知道,文件真正存储的地方是hdfs,所以想要获取文件信息,必定要访问namenode,这就涉及到hadoop ipc通信问题了。这是我们接下来需要进一步探讨的。

总结一下##

FsShell其实就是我们平常用终端写命令时,最终的程序运行入口。所以,FsShell命令还包括了我们常见的很多命令,例如put(旧版本的copyFromLocal)、get(旧版本的copyToLocal)、mkdir、mv、cp、rm、cat、chmod、chown、chgrp等等。而在FsShell类里所做的主要工作就是对这些命令的解析,即这些命令体现在文件系统中具体行为。当然,这其中也需要文件系统的配合(例如DistributedFileSystem中的listStatus方法)。我们接下来要重点关注的是(Distributed)FileSystem和DFSClient和Namenode三者的协作关系以及工作原理。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,047评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,807评论 3 386
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,501评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,839评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,951评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,117评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,188评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,929评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,372评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,679评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,837评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,536评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,168评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,886评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,129评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,665评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,739评论 2 351

推荐阅读更多精彩内容

  • linux资料总章2.1 1.0写的不好抱歉 但是2.0已经改了很多 但是错误还是无法避免 以后资料会慢慢更新 大...
    数据革命阅读 12,150评论 2 34
  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,642评论 18 139
  • Ubuntu的发音 Ubuntu,源于非洲祖鲁人和科萨人的语言,发作 oo-boon-too 的音。了解发音是有意...
    萤火虫de梦阅读 99,217评论 9 467
  • 当数据量增大到超出了单个物理计算机存储容量时,有必要把它分开存储在多个不同的计算机中。那些管理存储在多个网络互连的...
    单行线的旋律阅读 1,914评论 0 7
  • 儿子:“爸,以后碰到事情,不要自作主张,先充分尊重我和我妈的意见。” 老公:“嗯,记住了!” 儿子:“一句话,把我...
    银子姐阅读 225评论 4 3