Spark常见问题诊断

经常会遇到如下异常, 某一个task多次失败导致作业失败. 这种情况下因为容器退出, 无法查看日志, 已经很难判断具体的失败原因.

可以参考如下步骤进行简单诊断问题,

1. 点击如下失败的stage链接,


2. 进入如下task列表, 可以看到Index 396就是上面异常中的Task 396,  而对应的四次失败Attempt 的TID分别是 1165, 1318.

注意:这几次失败尝试发生的Host完全相同, 表示作业在同一台机器上反复执行这个task 4次并均告失败, 最终导致作业失败. 这种情况就极有可能是当时这台机器的状态不正常或负载偏高导致的


最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 转载地址 http://blog.csdn.net/lsshlsw/article/details/4915508...
    Helen_Cat阅读 5,071评论 0 1
  • 1 数据倾斜调优 1.1 调优概述 有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spar...
    wisfern阅读 2,939评论 0 23
  • 一. 运维 1. Master挂掉,standby重启也失效 Master默认使用512M内存,当集群中运行的任务...
    breeze_lsw阅读 9,322评论 2 32
  • 场景 数据倾斜解决方案与shuffle类性能调优 分析 数据倾斜 有的时候,我们可能会遇到大数据计算中一个最棘手的...
    过江小卒阅读 3,474评论 0 9
  • 初到深圳,表哥就谈到,我帮你介绍分工作,没有问题,但是那样,我马上把你赶回去,当然我当时嘴也蛮硬,说自己找,可是当...
    789951af8811阅读 316评论 0 0