1.问题背景 用户提交Spark应用到Yarn上时,可以通过spark-submit的num-executors参数显示地指定executor个数,随后,Applicatio...
背景 Apache Spark作为当前最为流行的开源大数据计算框架,广泛应用于数据处理和分析应用,它提供了两种方式来处理数据:一是交互式处理,比如用户使用spark-shel...
有时候会发现即使是读取少量的数据,启动延时可能也非常大,针对该现象进行分析,并提供一些解决思路。 背景 Spark 一次查询过程可以简单抽象为 planning 阶段和 ex...
数据本地性是 Spark 等计算引擎从计算性能方面去考量的一个重要指标,对于某个数据分片的运算,Spark 在调度侧会做数据本地性的预测,然后尽可能的将这个运算对应的Task...
本文将解读使用spark-shell的方式进入REPL的具体流程。 注:本专题的文章皆使用Spark-1.6.3版本的源码为参考,如果Spark-2.1.0版本有重大改进的地...
今天有朋友问之前NodeManager被Shuffle拉挂的问题,借此机会将之前分析的另一文档整理一下分享出来。 现象描述及分析 9月27日10时左右,编号为2611节点执行...
可以发现使用的资源并没有提升,但是同样的任务原来的配置跑几个小时还在卡着,改了配置后几分钟就能完成。您好,关于问题2shuffle fetch faild,该参数调整后很快就跑出来的核心原因是啥,我理解不应该会出现这种情况的
Spark排错与优化一. 运维 1. Master挂掉,standby重启也失效 Master默认使用512M内存,当集群中运行的任务特别多时,就会挂掉,原因是master会读取每个task的e...
一. 运维 1. Master挂掉,standby重启也失效 Master默认使用512M内存,当集群中运行的任务特别多时,就会挂掉,原因是master会读取每个task的e...