HDFS

按需要定制MapReduc

map和reduce可以用自己编程

目标在于多次的目标流读区,而不是读写

hdfs存储的是大量文本信息,适合做商业数据挖掘,既然是挖掘就在于要多次读,而不是一次次读写。因为写入成本高,每个文件要有三个副本
因此就导致了数据的高度容冗余

每个节点不需要raid 磁盘阵列

  1. radi -0
    2块硬盘的倍数,因为需要成对
    数据打散存储,两部分数据分别存储在2块硬盘。串行存储
  • raid -1
    2块硬盘的倍数

  • raid -5
    3块硬盘

  • raid-10(raid 1,0)
    NameNode节点就一个,raid
    DataNode:不需要raid

数据块

1版本是64M
2版本是128M。默认是存储3个副本,因此存储的总容量是*3

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容