1.使用 cdh cloudera 发行版本 ,自带disk balancer ,商业开源比 原始开源稳定太多,而且安装 hadoop其他组件 也比较方便,集群的监控 和预警做的很好,修改配置也比较容易,做数据冷热 分离 组件也有扩展, 唯一难点 ,安装 难度大,比paddlepaddle编译要 难,数据维护和运维也是口碑最好 经验丰富的体系 久经考验,免费 版本 即可,也可以安装 收费版本,
2.使用 hdp hortonworks 发行版本,不带diskbalancer,现在最高版本支持hadoop 2.7.3, 商业开源 ambari 比原始开源稳定,使用 hadoop其他工具链安装 也非常简单,也是自带监控和预警 ,可以监控工具链中的大部分组件,安装难度 比原始hadoop 难,比 cdh 简单一些,hadoop现在也在推广 ambari,免费版本即可
3.安装 hadoop 原生 3.0 ,支持 disk balancer 和实时数据流分析 和纠错码 减少 副本存储冗余,不过现在只是beta版,反映也很 良好,算是在2.8的基础上添加了新功能,年底好像可以发布release 版本
4.集群尽量 和线上服务可以内网 想ping通,而不是必须通过中转才通 ,使用中转只是我们在正式 环境下的方式,细想 万一中转中途挂了,我们又把 外网关闭了,就没有办法了