深入浅出的Hadoop基础原理(二)——HDFS文件系统

文件系统介绍

文件系统的作用就是永久存储数据。计算机可以存储数据的地方是内存,硬盘,优盘,SD 卡等等。如果计算机断电关机,存放在内存里的数据就没有了,而存放在硬盘优盘 SD 卡这些上的数据会仍然存在。硬盘优盘SD 卡上的数据是以文件的形式存在,文件系统就是文件的组织和处理。总之,凡是断电之后不会消失的数据,就必须由文件系统存储和管理。

从用户的角度来说,文件系统需要提供文件的创建,删除,读,写,追加,重命名,查看属性,更改属性等各种功能。文件夹,也叫目录,它的作用类似容器,保存其他文件夹和文件。于是,各级文件夹和各级文件就共同组成了文件系统的层次,看起来象一棵倒放的树,最上层是最大的目录,也叫根目录,然后这个目录包含子目录和文件,子目录又包含更多的子目录和文件,这棵树的术语叫目录树。

起初,Linux 使用的文件系统是Minix 文件系统。但Minix 系统有不少限制,诸如最大文件尺寸只有 64M,文件名最多是14 个字符长度。后来,Linux 内核加入了 VFS,也就是虚拟文件系统Virtual File System。VFS 是Linux 内核和真正文件系统之间的抽象层,它提供统一的接口,真正的文件系统和 Linxu 内核必须通过 VFS 的接口进行沟通。随后,Linux 逐步使用基于 VFS 的ext文件系统,ext2 文件系统,ext3 文件系统等等。基于 VFS,Linux 对 Windows 的FAT 和NTFS 格式也提供支持。

通常情况下,Linux 的文件系统是单机的,也就说,从物理的角度看,文件系统只存储单台计算机的数据。分布式文件系统在物理上分散的计算机上存储数据。比如,NFS(NetWork File System)是一种非常经典的分布式文件系统,它基于 VFS,由 Sun 公司开发的。本质上,NFS 是在物理上分散的计算机之间增加了一个客户-服务器层。对NFS,可以这么理解:计算机 A 有自己的 VFS,计算机 B也有自己的 VFS,那么,如果 A 想操作 B上的文件,A 的数据和命令依次通过的路线是:A 的 VFS-->A 的 NFS 客户端-->网络-->B 的 NFS 服务器端-->B 的 VFS-->B 的文件系统。

HDFS文件系统

Hadoop分布式文件系统,全称Hadoop Distributed File System,也就是HDFS。

Hadoop 借鉴了VFS,也引入了虚拟文件系统机制。HDFS 是 Hadoop 虚拟文件系统的一个具体实现。除了HDFS 文件系统之外,Hadoop 还实现很多其他文件系统,诸如本地文件系统,支持 HTTP 的 HFTP 文件系统,支持 Amazon的 S3 文件系统等等。

HDFS 从设计上来说,主要考虑以下的特征:超大文件,最大能支持 PB 级别的数据;流式数据访问,一次写入,多次读取;在不可靠的文件,故障率高的商用硬件上能运行。Hadoop 的不利之处,是不适应低时间延迟的数据访问,不适应大量的小文件,也不适应多用户写入任意修改文件的情况。

假设有一个 HDFS 集群,那么这个集群有且仅有一台计算机做名字节点 NameNode,有且仅有一台计算机做第二名 字 节 点 SecondaryNameNode , 其 他 机 器 都 是 数 据 节 点 DataNode 。 在 伪 分 布 式 的 运 行 方 式 下 ,NameNode,SecodaryNameNode,DataNode 都由同一台机器担任。

NameNode 是 HDFS 的管理者。SecondaryNameNode 是 NameNode 的辅助者,帮助 NameNode 处理一些合并事宜,注意,它不是 NameNode 的热备份,它的功能跟 NameNode 是不同的。DataNode 以数据块的方式分散存储 HDFS 的文件。HDFS 将大文件分割成数据块,每个数据块是 64M,也可以设置成 128M或者 256M,然后将这些数据块以普通文件的形式存放到数据节点上,为了防止 DataNode 意外失效,HDFS 会将每个数据块复制若干份放到不同的数据节点。

执行“ hadoop fs -help”可以看到 HDFS的命令行工具和用法。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,236评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,867评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,715评论 0 340
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,899评论 1 278
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,895评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,733评论 1 283
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,085评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,722评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,025评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,696评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,816评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,447评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,057评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,009评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,254评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,204评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,561评论 2 343

推荐阅读更多精彩内容

  • 首先,我们在使用前先看看HDFS是什麽?这将有助于我们是以后的运维使用和故障排除思路的获得。 HDFS采用mast...
    W_Bousquet阅读 4,174评论 0 2
  • HDFS的设计目标 通过上一篇文章的介绍我们已经了解到HDFS到底是怎样的东西,以及它是怎样通过多副本机制来提供高...
    陌上疏影凉阅读 1,437评论 0 3
  • 摄影作品分析步骤 1.看立意一一读懂画面的含义, 概括作品主题 2.看表达一分析画面的各种表现技巧 A:主体对象的...
    蓝桉sama阅读 11,343评论 0 5
  • 好多天没写东西了,一开始自己曾经想着坚持,还是懈怠了。这几天发现妞妞长大好多,不但身高和体重增加了,自己在玩的时候...
    馨雅心向未来阅读 215评论 0 0