登录注册写文章

06 | 新技术层出不穷，HDFS依然是存储的王者

06 | 新技术层出不穷，HDFS依然是存储的王者

简要总结

文章开篇强调分布式文件存储的重要性，指出尽管新技术不断涌现，HDFS在大数据存储领域的王者地位依旧稳固。接着阐述HDFS地位稳固的原因，随后介绍其设计目标、核心原理，并通过架构图说明关键组件DataNode和NameNode的功能。文章还从不同层面探讨HDFS的高可用设计，包括数据存储、磁盘、DataNode、NameNode故障容错。此外，提及保证系统可用性的常用策略，最后总结HDFS实现数据大容量、高速、可靠存储和访问的方式，并留下关于设计分布式文件系统的思考题。

重要观点

HDFS地位稳固

总结：在大数据技术不断推陈出新的情况下，HDFS作为最早的大数据存储系统，因存储着宝贵数据资产，新算法、框架需支持它才能获取数据，所以其地位依然重要。
依据：以大数据计算与烹饪作类比，数据是食材，HDFS是大锅，形象说明HDFS的基础性；从大数据体系围绕数据展开，新算法框架依赖HDFS获取数据这一逻辑进行推演。

HDFS设计目标与原理

总结：HDFS旨在管理大规模服务器和磁盘，将其计算资源当作单一存储系统，为应用程序提供PB级存储容量，其核心原理源自将RAID理念扩展到分布式服务器集群。
依据：对比RAID磁盘阵列存储，说明HDFS在分布式服务器集群上对数据分片并行读写及冗余存储的思路。

HDFS关键组件功能

总结：DataNode负责文件数据的存储和读写，将文件数据分割成数据块存储在服务器集群中；NameNode负责元数据管理，为保证数据高可用，会将数据块复制多份存储在不同服务器上。
依据：结合HDFS架构图及实际应用中集群规模、数据块复制份数等事实进行阐述。

HDFS高可用设计

总结：HDFS从数据存储、磁盘、DataNode、NameNode故障容错等不同层面进行高可用设计，保障数据和系统的可用性。
依据：针对不同故障类型，详细说明HDFS相应的应对措施，如计算校验和、复制数据块、主从热备等。

保证系统可用性策略

总结：常用的保证系统可用性策略有冗余备份、失效转移和降级限流，且在实施过程中有容易被忽略的地方。
依据：通过互联网企业建设多个数据中心、NameNode主从服务器管理、电商“双十一”促销等实际案例说明策略的应用及注意事项。

关键数据

HDFS可对应用程序提供数以PB计的存储容量。
HDFS集群的DataNode服务器一般在几百台到几千台，每台服务器配有数块磁盘，整个集群存储容量大概在几PB到数百PB。
HDFS缺省情况下将一个数据块复制为3份。

逻辑分析

整体逻辑：文章先强调HDFS地位，再深入剖析其原理、组件、高可用性设计及相关策略，逻辑清晰，从宏观到微观逐步展开，便于读者理解。
观点推导：各观点推导合理。以类比和实际需求说明HDFS地位稳固；通过与RAID对比引出HDFS原理；结合架构和实际运行情况阐述组件功能；针对不同故障类型提出相应高可用设计；用实际案例解释可用性策略。
逻辑漏洞：整体逻辑较为严谨，未发现明显逻辑漏洞。但在阐述保证系统可用性策略时，对于ZooKeeper工作原理只是提及后续专门分析，在当前内容中略显突兀，可能影响读者对NameNode主从选举机制的完整理解。

思考分析

HDFS地位原因：HDFS成为大数据存储王者，不仅因其先发优势存储大量数据，更在于大数据生态对其形成的依赖。新的计算框架和算法为了能利用已有数据，必须支持HDFS，这形成了一种“强者恒强”的局面。
现实影响：HDFS的广泛应用保障了大数据存储的稳定性和可靠性，推动了大数据技术的发展。其高可用设计和大容量存储能力，满足了众多企业和科研机构处理海量数据的需求。然而，随着技术发展，HDFS也面临一些挑战，如面对日益增长的非结构化数据和实时性要求更高的应用场景，需要不断改进和优化。
关于设计分布式文件系统的思考：设计利用个人设备空闲存储空间的分布式文件系统，需考虑多方面问题。安全性方面，要确保用户个人资料不被泄露和非法访问；存储管理方面，需高效调度和分配空闲空间；经济模式上，合理制定付费和收费机制以吸引用户；同时还要应对设备离线、网络不稳定等情况，保证系统的可用性和可靠性。可借鉴HDFS的一些设计思路，如数据分片、冗余备份等，结合个人设备的特点进行创新设计。

思维导图

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

大数据文件存储系统HDFS
现在随着企业规模的发展，对于数据存储的要求越来越大，单机存储性能已经成为存储的瓶颈，在这里我们就需要引入分布式存储...
胖琪的升级之路阅读 5,381评论 0赞 3
云上大数据存储：探究 JuiceFS 与 HDFS 的异同
HDFS 作为 Hadoop 提供存储组件，已经成为大数据生态里面数据存储最常用的选择，通常在机房环境部署。 Ju...
JuiceFS阅读 2,662评论 0赞 0

HDFS核心技术详解(转)
HDFS核心技术详解我们都知道Hadoop 主要由HDFS和MapReduce 两个核心部分组成。其中最底部...
dinel阅读 3,707评论 0赞 0
扫盲：Hadoop分布式文件系统（HDFS）基础概念讲解！
无论你如何将Hadoop与Spark进行对比，无论Spark生态多么成熟和完善，其底层终归要基于HDFS，毕竟这是...
金乐笑阅读 2,656评论 0赞 1
大数据技术与应用专业实训系统
第一章大数据发展背景 1.1 国家政策  2017年1月工业和信息化部正式发布了《大数据产业发展规划（201...
00d34451b19b阅读 4,151评论 0赞 0

赞1赞

赞赏

手机看全文