Yarn的作用
Yarn是一个分布式资源调度器组件。这个组件的主要作用是在每次接收到请求后,会查看当下的各个子节点的状况,统筹出运算资源的调度方案来保证任务可以顺利执行。通常来说,Yarn所调度的资源常常包括磁盘空间的资源,内存的资源和通讯带宽的资源等。Yarn是Hadoop V2.0开始引入的一个组件,这个组件可以说是针对Hadoop1.0系统所爆露出的计算资源使用不合理等设计上的问题进行的修正和补充。
ZooKeeper的作用
ZooKeeper是一个分布式的一致性服务组件。分布式系统最大的困难之处在于如何保证系统内各个节点服务器所操作或处理的数据是一致的,或者各自的配置信息是相同的,而ZooKeeper的价值就在于实现了基于分布式的统一化配置管理,命名服务,状态同步等。在ZooKeeper的体系下,会使用一种树状的文件存储系统,这一套系统强调在各个子节点下的文件目录结构,文件名称以及文件内容都是相同的,而ZooKeeper会通过其内部机制,保证在发送增删改等操作时,各个子节点会同步操作。
两者相似之处
都是分布式的
都具备监听和控制子节点运行的能力
Yarn和Zookeeper的区别
Zookeeper是一个分布式协调服务(Coordination),一个leader,多个follower组成的集群,就是为用户的分布式应用程序提供协调服务。Zookeeper是为别的分布式程序服务的。Zookeeper所提供的服务涵盖:主从协调、服务器节点动态上下线、统一配置管理、分布式共享锁、统一名称服务等。 YARN的目标就是实现“一个集群多个框架”,即在一个集群上部署一个统一的资源调度管理框架YARN,在YARN之上可以部署其他各种计算框架。由YARN为这些计算框架提供统一的资源调度管理服务,并且能够根据各种计算框架的负载需求,调整各自占用的资源,实现集群资源共享和资源弹性收缩。可以实现一个集群上的不同应用负载混搭,有效提高了集群的利用率。不同计算框架可以共享底层存储,避免了数据集跨集群移动。