HDFS集中式缓存管理

Hadoop从2.3.0版本开始支持HDFS缓存机制,HDFS允许用户将一部分目录或文 件缓存在HDFS当中,NameNode会通知拥有对应块的DataNodes将其缓存在
DataNode的内存当中。

优势

  • 防止那些被频繁使用的数据从内存中清除
  • 因为DataNode的缓存由NameNode来管理,applications在做任务安排时可以查询这个缓 存的列表,使用一个被缓存的块副本能够提高读性能
  • 当块被DataNode缓存之后,客户端可以使用一个新的、高效的、zero-copy的读API,因 为缓存中的数据已经被计算过checksum,当使用新API时,客户端基本上是零开销的
  • 可以提高集群的内存利用率。当使用操作系统的缓存时,对一个块的重复读会导致所有 的副本都会被放到缓冲区当中,当使用集中式缓存时,用户可以指定n个副本中的m个 才会被缓存,可以节约n-m的内存

使用场景

  • 集中式缓存对那些频繁访问的的文件是非常有用的,例如hive中经常被使用的fact表就 非常适合缓存
  • 另一方面,缓存一年的查询结果可能没那么有用了,因为这个结果可能只会被查看一次
    有助于提高混合类型作业的SLA性能,把高优先级的数据缓存起来可以确保它不会与低 优先级的数据竞争磁盘IO

命令行

image.png
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 首先,我们在使用前先看看HDFS是什麽?这将有助于我们是以后的运维使用和故障排除思路的获得。 HDFS采用mast...
    W_Bousquet阅读 4,304评论 0 2
  • hadoop HDFS原理解析01 HDFS架构•NameNode•DataNode•Sencondary Nam...
    白菜青萝卜阅读 2,809评论 2 30
  • hdfs是什么? 问题: 1. hdfs是基于什么样的原理将文件分块存储到分布式环境中的各个设备上的? 2. h...
    4762d2980c91阅读 4,801评论 0 6
  • 本次参加的21天理财小白课是23期16班4组,这次课程即将结束了,翻看自己的笔记本,记的满满的知识点,真是感慨万千...
    王丽燕199阅读 3,217评论 8 11
  • 我一直以为,自己会不错,毕竟在大学里也算混得还不错。为什么要说混,这肯定是有原因的。原来的我总以为自己在高中岁月里...
    sanchuan阅读 403评论 0 0