Hadoop权威指南第三版-中文-ch3 (6)Hadoop存档

注:本文涉及书中3.9小结

Hadoop存档

1. 综述

Hadoop存档文件或HAR文件,是一个高效的文件存档工具,它将文件存入HDFS块,在减少namenode内存使用的同时,允许对文件进行透明地访问。具体来说,Hadoop存档文件可以用作MapReduce的输入。


个人理解:为什么需要Hadoop存档文件?

Hadoop存档文件的出现,可以解决HDFS的小文件处理问题。

某博客对Hadoop存档的详细解释:https://blog.csdn.net/helloxiaozhe/article/details/79159799


2. 创建工具

Hadoop存档是通过archive工具根据一组文件创建而来的,Hadoop存档文件可以用作MapReduce的输入。

3. 缺点

(1)新建一个存档文件会创建原始文件的一个副本,因此至少需要与要存档的文件容量相同大小的磁盘空间。

(2)存档文件在创建后不能进行修改。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容