登录注册写文章

【2019-01-05】hdfs du统计与hdfs df统计不一致

【2019-01-05】hdfs du统计与hdfs df统计不一致

问题现象

某hadoop集群，通过du命令统计文件总大小为50T；但是hdfs df和hdfs 原生界面统计大小为190T。需解释原因。

分析过程

1.du和df统计的差异在哪？

du命令是按文件统计，从hdfs元数据中获取文件并累加文件大小统计；

df统计是整个磁盘上block所占用的大小，包含了所有的副本。

2.统计实际的副本数量

使用hdfs fsck / 统计集群的平均副本数量，副本数量为2。既然副本数量为2，整体空间应该为45T*2=90T；和预期相差很远。

3.排除有其他文件占用

统计单个dn，blk*开头的数据文件（包含blk和校验文件meta）。无论是数量还是大小都和原生界面一致。不存在块未删除和块待上报的现象。

4.检查hdfs快照

发现客户确实做了hdfs快照，快照空间约为37T左右。37*2=74T，基本可以得出结论，这部分空间是快照使用了。

结论：

客户使用了hdfs快照，并且快照不在du范围内。导致du命令统计大小和原生界面存在差异。

最后编辑于：2019.07.09 09:48:09

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

HDFS入门
HDFS入门 hadoop架构 Hadoop 1.0中的资源管理方案 Hadoop 1.0指的是版本为Apache...
依天立业阅读 1,179评论 0赞 1
HDFS体系结构指南
原文介绍 Hadoop分布式文件系统（ HDFS ）是一种分布式文件系统，设计用于在商品硬件上运行。它与现有...
公子小水阅读 1,182评论 0赞 0
HDFS 架构
翻译： http://hadoop.apache.org/docs/stable/hadoop-project-d...
金刚_30bf阅读 830评论 0赞 2
深入理解Hadoop之HDFS架构
Hadoop分布式文件系统（HDFS）是一种分布式文件系统。它与现有的分布式文件系统有许多相似之处。但是，与其他分...
逍遥ii阅读 1,160评论 3赞 20
2017-05-10你受的苦，总有一天会照亮你未来的路
在这段异常艰难的时光中，挺过来的人，人生就会豁然开朗；挺不过来的，时间也会教会你怎么与它们握手言和，所以你不必害怕...
苏心2017阅读 164评论 0赞 3

1赞2赞

赞赏

手机看全文