登录注册写文章

Spark On Yarn 如何提高CPU利用率

Spark On Yarn 如何提高CPU利用率

问题描述：

Spark on Yarn是利用yarn进行资源调度，这两天我写的一个程序处理大概100W行文本，文本格式是txt，数据大小为50M左右。我将Scala写的代码打包扔到集群上执行，这么点数据量都需要执行3个小时，都说Spark是大数据处理的利器，但是哪里出问题了呢？带着这个问题，我查看了4个Slave节点(24核,60G内存)的CPU利用率如下图：

cpu利用率

很明显，Job没有充分利用CPU。

解决方案：

首先我探索了spark-submit里的各个参数，主要关注了：number-executors和executor-cores，改了各种配置,他们都对提高CPU的利用率不起作用。

spark-submit参数

由于我的代码核心就是对一个RDD做map操作如下,其中调用了BLAS库做矩阵运算：

核心代码

我考虑了是不是需要将hadoop里的map/reduce vcore设置大一些，即mapreduce.map.cpu.vcores 和 mapreduce.reduce.cpu.vcores设置大些，可是依然不起作用。

最后，发现问题的关键了，我输入数据源为一个txt文件，数据并没有分片，所以导致单机单核可以执行，并没有利用到Hadoop/Spark的并行处理的优势。下面我就将数据源分片：

split -l 20000 xxx.txt -d -a 4 xxx.txt._

其实也可以这样来使得数据分片，这样的效果没有验证。

val distFile = sc.textFile("data.txt",num_of_partition)

这个命令将数据源(100W行)分成了 50份，这样的话集群就对此文件并行执行了。下面是执行结果：

spark-submit

yarn占用资源

cpu利用率

感觉速度快了很多，这次任务执行大概20min。如果有说的不对的地方，请大家多多指教，欢迎交流。

最后编辑于：2017.11.27 06:16:09

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

相关阅读更多精彩内容

yarn应用场景基本架构和资源调度
YarnYarn产生背景：Yarn直接来自于MR1.0MR1.0 问题：采用的是master slave结构，ma...
时待吾阅读 11,200评论 2赞 23
Apache Spark 2.2.0 中文文档 - Spark 编程指南 | ApacheCN
Spark 编程指南概述 Spark 依赖初始化 Spark 使用 Shell 弹性分布式数据集 (RDDs)...
Joyyx阅读 5,883评论 0赞 4

Apache Spark 2.2.0 中文文档 - Spark 编程指南 | ApacheCN
Spark 编程指南概述 Spark 依赖初始化 Spark 使用 Shell 弹性分布式数据集 (RDDs)...
草里有只羊阅读 8,550评论 0赞 15
Apache Spark 2.2.0 中文文档 - Spark SQL, DataFrames...
Spark SQL, DataFrames and Datasets Guide Overview SQL Dat...
Joyyx阅读 12,611评论 0赞 16
若想改变，现在开始也不晚
前段时间公司效益不好，天天下早班，一下早班第一没了收入，第二下早班之后整个人都闲得慌，好像漫无目的游者一样找不到方...
再见初始的阳光阅读 1,310评论 0赞 1

友情链接更多精彩内容

6赞7赞

赞赏

手机看全文