登录注册写文章

HDFS

吃块西瓜写代码

HDFS

HDFS(Hadoop Distributed File System)

概述

特点：一次写入，多次读出，且不支持文件的修改
优点

高容错性：不同节点保存多个副本
某个副本丢失以后，它可以自动恢复
适合处理大数据
可以构建在廉价机器上，通过多副本机制，提高可靠性

缺点

不适合低延时数据访问
无法高效的对大量小文件进行存储
不支持并发写入、文件随机修改。一个文件只能有一个写，仅支持append，不支持文件的随机修改

HDFS组成

hadoop构件图

包括三个部分

NN：最重要的部分，保存元文件，并且负责配置副本，处理客户端的读写请求。包工头
DN：存储实际的数据块，实际执行数据块的读写操作。工人
2NN：辅助NameNode，在紧急情况下，辅助恢复NameNode。秘书，

HDFS文件快大小

通过设置dfs.blocksize设置，默认128MB。这个设置其实是与磁盘的读写速度相关

设置太小，副本太多寻址时间长
设置太大，从磁盘传输数据的时间很长，导致程序处理数据的时间变慢

Shell操作

Hadoop对文件的操作
Hadoop 其实和linux一样。
cp
mv
chown
du disk usage
df 查看文件使用情况

从local到hdfs
copyFromLocal 和 put无区别 moveFromLocal则是剪切

从hdfs到local
get,copyToLocal

merge，把某个文件夹里的内容合并发送到本地
setrep 设置副本数，副本数小于datanode，当设置过大时，没有意义。不会再一个datanode上存多个副本

HDFS的API操作

使用时看文档即可

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

相关阅读更多精彩内容

HDFS的使用（随时更新）
首先，我们在使用前先看看HDFS是什麽？这将有助于我们是以后的运维使用和故障排除思路的获得。 HDFS采用mast...
W_Bousquet阅读 4,488评论 0赞 2
深入理解Hadoop之HDFS架构
Hadoop分布式文件系统（HDFS）是一种分布式文件系统。它与现有的分布式文件系统有许多相似之处。但是，与其他分...
逍遥ii阅读 1,208评论 3赞 20

【译】Apache Hadoop 系列之一（HDFS架构）
Apache Hadoop项目为高可用、可扩展、分布式计算开发开源软件。Apache Hadoop软件库是一个平台...
Kooola大数据阅读 786评论 2赞 6
初识hdfs之读写流程
随着数据量越来越大，在一个操作系统管辖的范围存不下了，那么就分配到更多的操作系统管理的磁盘中，但是不方便...
tracy_668阅读 2,900评论 0赞 6
崔律时间管理之早起第9讲课后实践
早起第9讲课后实践 1【本讲收获1】每天早晨都宛若新生，要用心去感受；【本讲收获2】一日之计在于晨，早晨能够从容...
Steven_2016阅读 209评论 0赞 0

友情链接更多精彩内容

赞1赞

赞赏

手机看全文