Hadoop集群硬件选择

搭建一个Hadoop集群需要选择合适的主机,这里主要考虑CPU、内存、硬盘、网卡,另外一个Hadoop集群的主机数通常会具有一定规模几十台、上百台甚至更多,那么主机自身的功耗,以及空调降温的功耗也是一笔不容忽视的开销。

关于主机选择
为Hadoop集群选择合适的主机需要对集群进行性能测试、全面的理解集群的工作负载。分析集群的瓶颈主要是在计算上还是IO上。更高的性能通常意味着更高的价格。我们需要根据集群的工作负载情况来在集群性能和硬件支出之间作出平衡。

在几乎所有情形下,MapReduce要么会在从硬盘或者网络读取数据时遇到瓶颈(称为IO受限的应用),要么在处理数据时遇到瓶颈(CPU受限)。排序是一个IO受限的例子,它需要很少的CPU处理(仅仅是简单的比较操作),但是需要大量的从硬盘读写数据。模式分类是一个CPU受限的例子,它对数据进行复杂的处理,用来判定本体。

下面是更多IO受限的工作负载的例子:
索引
分组
数据导入导出
数据移动和转换

下面是更多CPU受限的工作负载的例子:
聚类/分类
复杂文本挖掘
自然语言处理
特征提取

如下图所示:
如果集群的工作主要受IO限制,那么应选择存储优化的硬件,如果集群的负载主要受CPU限制,那么应该选择计算优化的硬件。对于一个新的集群,或者不能准确评估负载类型时,建议先选择均衡型的硬件。然后在集群上运行MapReduce测试任务来分析瓶颈究竟是在IO还是CPU,并根据实际情况作出调整。

image.png

轻处理型配置:2个16核心CPU 24-64GB内存 8块硬盘(1TB 或 2TB)
均衡型配置: 2个16核心CPU 48-128GB内存 12-16块硬盘(1TB 或 2TB)
重存储型配置:2个16核心CPU 48-96GB内存 16-24块硬盘(2TB 或 4TB)
计算加强型配置:2个16核心CPU 64-512GB内存 8块硬盘(1TB 或 2TB)

NameNode推荐配置
4-6块 1TB 硬盘(1块给操作系统,2块给FS image [RAID 1],1块给Zookeeper , 一块给Journal Node)
2 个 4/8/16 核心处理器,主频至少为 2-2.5GHz
64 - 128G 内存
千兆网卡或万兆网卡

DataNode推荐配置
12-24块1-4TB硬盘
2个 4/8/16核心处理器,主频至少2-2.5GHz
64-512BG 内存
千兆或万兆网卡(存储密度越高,需要的网络网络吞吐越高)

如果集群的主机数超过20,那么推荐将集群划分为2个机架,每个机架配备一个万兆的顶层交换机。运维团队需按照逻辑机架来组织集群网络的拓扑结构。

关于RAID
Hadoop将数据分布在集群当中,在软件层面来保证性能(本地块加载,最小化数据移动)、数据的可靠性以及容错(块副本)。尽管建议采用RAID(Redundant Array of Independent Disk,即磁盘阵列)作为NameNode的存储器以保护元数据,但是若将RAID作为DataNode的存储设备则不会给HDFS带来益处。HDFS所提供的节点间数据复制技术已可满足数据备份需求,无需使用RAID的冗余机制。
此外,尽管RAID条带化技术(RAID 0)被广泛用户提升性能,但是其速度仍然比用在HDFS里的JBOD(Just a Bunch Of Disks)配置慢。JBOD在所有磁盘之间循环调度HDFS块。RAID 0的读写操作受限于磁盘阵列中最慢盘片的速度,而JBOD的磁盘操作均独立,因而平均读写速度高于最慢盘片的读写速度。需要强调的是,各个磁盘的性能在实际使用中总存在相当大的差异,即使对于相同型号的磁盘。
最后,若JBOD配置的某一磁盘出现故障,HDFS可以忽略该磁盘,继续工作。而RAID的某一盘片故障会导致整个磁盘阵列不可用,进而使相应节点失效。

关于功耗
Hadoop生态系统被设计为一种并行处理环境。在采购处理器时不推荐购买主频过高的芯片。因为主频较高的芯片功耗较大,并且发热比较高。中档的处理器结合主频、核心数和价格来看更具有性价比。

参考:
http://blog.cloudera.com/blog/2013/08/how-to-select-the-right-hardware-for-your-new-hadoop-cluster/
https://zh.hortonworks.com/blog/why-not-raid-0-its-about-time-and-snowflakes/

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,445评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,889评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,047评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,760评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,745评论 5 367
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,638评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,011评论 3 398
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,669评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,923评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,655评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,740评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,406评论 4 320
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,995评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,961评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,197评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,023评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,483评论 2 342

推荐阅读更多精彩内容