spark日志收集

在很多情况下,我们需要查看driver和executors在运行Spark应用程序时候产生的日志,这些日志对于我们调试和查找问题是很重要的。

Spark日志确切的存放路径和部署模式相关:
  (1)、如果是Spark Standalone模式,我们可以直接在Master UI界面查看应用程序的日志,在默认情况下这些日志是存储在worker节点的work目录下,这个目录可以通过SPARK_WORKER_DIR参数进行配置。

(2)、如果是Mesos模式,我们同样可以通过Mesos的Master UI界面上看到相关应用程序的日志,这些日志是存储在Mesos slave的work目录下。

(3)、如果是YARN模式,最简单地收集日志的方式是使用YARN的日志收集工具(yarn logs -applicationId),这个工具可以收集你应用程序相关的运行日志,但是这个工具是有限制的:应用程序必须运行完,因为YARN必须首先聚合这些日志;而且你必须开启日志聚合功能(yarn.log-aggregation-enable,在默认情况下,这个参数是false)。

如果你运行在YARN模式,你可以在ResourceManager节点的WEB UI页面选择相关的应用程序,在页面点击表格中Tracking UI列的ApplicationMaster,这时候你可以进入到Spark作业监控的WEB UI界面,这个页面就是你Spark应用程序的proxy界面,比如http://www.iteblog.com:9981/proxy/application_1430820074800_0322,当然你也可以通过访问Driver所在节点开启的4040端口,同样可以看到这个界面。

到这个界面之后,可以点击Executors菜单,这时候你可以进入到Spark程序的Executors界面,里面列出所有Executor信息,以表格的形式展示,在表格中有Logs这列,里面就是你Spark应用程序运行的日志。如果你在程序中使用了println(....)输出语句,这些信息会在stdout文件里面显示;其余的Spark运行日志会在stderr文件里面显示。

在默认情况下,Spark应用程序的日志级别是INFO的,我们可以自定义Spark应用程序的日志输出级别,可以到$SPARK_HOME/conf/log4j.properties文件里面进行修改,比如:

| 01 | # User: 过往记忆 |

| 02 | # Date: 2015-05-015 |

| 03 | # Time: 上午07:26 |

| 04 | # bolg: [http://www.iteblog.com](http://www.iteblog.com/) |

| 05 | # 本文地址:[http://www.iteblog.com/archives/1353](http://www.iteblog.com/archives/1353) |

| 06 | # 过往记忆博客,专注于hadoop、hive、spark、shark、flume的技术博客,大量的干货 |

| 07 | # 过往记忆博客微信公共帐号:iteblog_hadoop |

| 08 | spark.root.logger=WARN,console |

| 09 | |

| 10 | log4j.rootLogger=${spark.root.logger} |

| 11 | |

| 12 | log4j.appender.console=org.apache.log4j.ConsoleAppender |

| 13 | log4j.appender.console.target=System.err |

| 14 | log4j.appender.console.layout=org.apache.log4j.PatternLayout |

| 15 | log4j.appender.console.layout.ConversionPattern=%d (%t) [%p - %l] %m%n |

这样Spark应用程序在运行的时候会打出WARN级别的日志,然后在提交Spark应用程序的时候使用--files参数指定上面的log4j.properties文件路径即可使用这个配置打印应用程序的日志。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • 在应用程序中添加日志记录总的来说基于三个目的:监视代码中变量的变化情况,周期性的记录到文件中供其他应用进行统计分析...
    时待吾阅读 5,191评论 1 13
  • 在应用程序中添加日志记录总的来说基于三个目的:监视代码中变量的变化情况,周期性的记录到文件中供其他应用进行统计分析...
    时待吾阅读 5,126评论 0 6
  • from:https://www.cnblogs.com/ITtangtang/p/3926665.html一、L...
    enshunyan阅读 3,391评论 0 0
  • Spark SQL, DataFrames and Datasets Guide Overview SQL Dat...
    草里有只羊阅读 18,522评论 0 85
  • 最近身边四个亲人先后入院,我总是开玩笑说今年不是好年成,四十一度的高温,让人呼吸都变得困难。依稀记得去年我也说过不...
    岥素阅读 201评论 0 0

友情链接更多精彩内容