yarn概念
yarn是hadoop2.X分离出的资源调度平台,将任务的资源分配单独抽离,以适应在此平台上的其他类型任务的扩展。
参数优化
yarn参数配置文件为yarn-site.xml
yarn.nodemanager.resource.memory-mb
设置每个节点的可用内存,单位MB。合理设置该参数,将影响到DataNode的运行情况。
yarn.nodemanager.resource.cpu-vcores
设置每个节点虚拟cpu内核数
yarn.scheduler.minimum-allocation-mb
单个任务可申请的最小内存,默认1024MB
yarn.scheduler.maximum-allocation-mb
单个任务可申请的最大内存,默认8192MB
mapreduce参数配置
mapreduce.map.memory.mb
每个Map任务的物理内存限制
每个map任务的内存,应该是大于或者等于Container的最小内存
mapreduce.reduce.memory.mb
每个Reduce任务的物理内存限制
mapreduce.map.java.opts
-Xmx1200m
mapreduce.reduce.java.opts
-Xmx2600m
根据yarn.nodemanager.resource.memory-mb
及mapreduce.map.memory.mb
可以计算出每个slave可以运行的Map个数,reduce个数