登录注册写文章

Hadoop之HDFS

Hadoop之HDFS

来源

面对的数据和计算难题

大量的网页怎么存储
搜索算法

给我们的关键技术和思想

GFS（google file system）
MapReduce
Bigtable

优缺点

HDFS优点

高容错性：1.数据自动保存多个副本（默认3个）；2.副本丢失后，自动恢复
适合批处理：1.移动计算而非数据（在具体的datanode上进行计算，或者resourcemanager）；2.数据位置暴露给计算框架
适合大数据处理：1.GB、TB、甚至PB级数据；2.百万规模以上的文件数量；3.10K+节点
可构建在廉价机器上：1.通过多副本提高可靠性；2.提供容错和恢复机制

HDFS缺点

低延迟数据访问：1.比如毫秒级；2.低延迟与高吞吐率
小文件存取：1.占用NameNode大量内存；2.寻道时间超过读取时间
并发写入、文件随机修改：1.一个文件只能有一个写者；2.仅支持append

HDFS架构

image.png

NameNode

只能有1台NameNode是Active的，要做高可用确保其稳定性。（在生存环境中NameNode和SecondaryNameNode都是独立的机器）

image.png

SecondaryNameNode

存在于1.X版本的Hadoop，在2.X版本的Hadoop中如果做了高可用就没有SecondaryNameNode了，SecondaryNameNode的合并功能会由高可用standby的NameNode去进行合并。

image.png

image.png

DataNode

由于数据保存会有3个副本，DataNode至少3台以上

image.png

DataNode的Block副本存放策略:

image.png

HDFS写流程

首先是权限认证，然后顺序写

image.png

HDFS读流程

首先是权限认证，然后顺序读

image.png

HDFS文件权限

默认是只通过用户名认证，没有密码（可以通过集成第三方进行验证，需要牺牲部分性能）

image.png

HDFS安全模式

HDFS启动后，fsimage信息在内存中，所有的后续操作（执行edits的操作）只会记录到edits中并不会更新到fsimage中，所以需要启动时运行edits的各项操作。

image.png

Hadoop 2.X产生背景

只有海量数据才会有这种情况

image.png

Hadoop 1.X 与 2.X

image.png

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

Hadoop之hdfs架构详解
hdfs是什么? 问题: 1. hdfs是基于什么样的原理将文件分块存储到分布式环境中的各个设备上的？ 2. h...
4762d2980c91阅读 4,801评论 0赞 6
大数据学习笔记：Hadoop之HDFS（上）
HDFS（Hadoop Distributed File System ）Hadoop分布式文件系统。是根据goo...
值得一看的喵阅读 294评论 0赞 0
海贼王杂谈，多弗朗明哥最狂妄？那是你没见到路飞“狂”的时候
多弗朗明哥一直海贼王里极具人气的角色，这都是因为他狂妄的性格，和极端的观念。许多人认为海贼王里最狂妄的角色是明哥...
戴草帽的狮子阅读 502评论 1赞 2
MYSQL 操作
看一下mysql的版本信息：➜ ~ brew info mysqlmysql: stable 5.7.16 (b...
JohnnyB0Y阅读 213评论 0赞 0
要么我行我素，要么随波逐流
当下，有太多的人不清楚自己想要什么，以至于迷茫而又无助。太多太多的杂事扰乱着少不经事的心，每个人都想成为那个成...
浅若梨花阅读 621评论 0赞 1

1赞2赞

赞赏

手机看全文