hdfs数据完整性

hdfs会对写入的所有数据计算校验和,在数据通过不可靠通道传输的时候再次计算校验和,对比就能发现数据是否损坏,常用的通过32位循环冗余校验,在hadoop中,可以通过checksum命令得到想要的文件的校验和,对同一任务和输入的输出进行校验和比较


相同文件的校验和比较

可见,输出结果是相同的
datanode负责在收到数据后存储数据前对校验和进行检查,如果datanode检测到错误,客户端会受到一个异常,处理方式以应用程序特定的方式,比如重试该操作。
客户端从datanoded读取数据时,也会检验校验和,datanode持有一个校验的日志,用来保存每个数据块被客户端校验后的最后一次验证时间。datanode自己也会定期验证所有的数据块。
hdfs存储着每个数据块的副本,因此可以通过数据副本来修复损坏的数据块。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 原文 介绍 Hadoop分布式文件系统( HDFS )是一种分布式文件系统,设计用于在商品硬件上运行。它与现有...
    公子小水阅读 1,148评论 0 0
  • Apache Hadoop项目为高可用、可扩展、分布式计算开发开源软件。Apache Hadoop软件库是一个平台...
    Kooola大数据阅读 711评论 2 6
  • Hadoop分布式文件系统(HDFS)是一种分布式文件系统。它与现有的分布式文件系统有许多相似之处。但是,与其他分...
    逍遥ii阅读 1,153评论 3 20
  • 闺蜜,是无论何时何地,无论你们身在何方,都会对你嘘寒问暖,关心你,安慰你的人!我的么么哒们,无论未来有多远,无论我...
    _辰希悦阅读 365评论 0 3
  • 姓名:沈微微 公司名称:承迪文具 感谢二组成员 【日精进打卡第49天】 一:【知~学习】 1:《六项精进》1遍...
    小小轩35阅读 114评论 0 0