Spark History Server

在运行 Spark 应用程序的时候,Driver 会提供一个 WebUI 用于展现应用程序的运行信息,但是这个服务是伴随 Spark 应用程序的运行周期的,当应用程序运行完成后,将无法查看应用程序的历史记录。

Spark history server 就是为了应对这种情况而产生的,通过配置,Spark 应用程序在运行成之后,将应用程序的运行信息写入指定目录,Spark history server 可以将这些信息加载并以 Web 或命令行的方式供用户浏览。

配置 Spark History Server

在 Spark 的 /conf 目录下,基于 spark-defaults.conf.template 复制创建 spark-defaults.conf

# Spark Master Host:Port  
spark.master                     spark://hadoop.master:7077  
# 是否记录作业产生的事件或者运行状态(job,stage 等使用内存等信息)
spark.eventLog.enabled           true  
# 如果记录作业产生的事件或者运行状态,则将事件写入什么位置  
spark.eventLog.dir               hdfs://hadoop.master:9000/user/hadoop/sparkevtlog  
# history http 的监听端口号,通过 http://hadoop.master:${spark.history.ui.port} 访问  
spark.history.ui.port            18080  

启动 Spark History Server

使用如下命令启动 History Server

> ./start-history-server.sh

starting org.apache.spark.deploy.history.HistoryServer, logging to ../logs/spark-hadoop-org.apache.spark.deploy.history.HistoryServer-1-hadoop.out

启动后访问 http://${spark.master}:{spark.history.ui.port}

History Server 参数

spark-env.sh 配置

通过设置 SPARK_HISTORY_OPTS 的方式

export SPARK_HISTORY_OPTS="-Dspark.history.ui.port=7777 -Dspark.history.retainedApplications=3"

spark.history.fs.update.interval
默认值: 10,单位秒
刷新日志的时间,更短的时间可以更快检测到新的任务以及任务执行情况,但过快会加重服务器负载

spark.history.ui.port
默认值:18080
history-server 的 Web 端口

spark.history.retainedApplications
默认值:50
在内存中保存 Application 历史记录的个数,如果超过这个值,旧的应用程序信息将被删除,当再次访问已被删除的应用信息时需要重新构建页面。

spark.history.fs.cleaner.enabled
默认值:false
指定 history 日志是否定时清除,一定要设置成 true。

spark.history.fs.cleaner.interval
默认值:1d
指定 history 日志定时清除的周期,默认一天

spark.history.fs.cleaner.maxAge
默认值:7d
指定 history 日志生命周期,默认七天

spark-defaults.conf 配置

每个配置一行

spark.eventLog.enabled  true
spark.eventLog.compress true

spark.eventLog.enabled
默认值:false
是否记录 Spark 事件,用于应用程序在完成后重构 WebUI

spark.eventLog.compress
默认值:false
是否压缩记录 Spark 事件,前提 spark.eventLog.enabled 为 true,默认使用的是 snappy 压缩

spark.eventLog.dir
默认值:file:///tmp/spark-events
保存日志相关信息的路径,以 hdfs:// 开头的是 HDFS 路径,以 file:// 开头的是本地路径,需要提前创建


spark.history.fs.logDirectoryspark.eventLog.dir 指定目录的区别?

spark.eventLog.dir:日志记录的位置
spark.history.fs.logDirectory:页面展示指定路径下的信息
所以如果要显示最新的全部的日志,这两个参数需要指定同一个目录


©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,684评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,143评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,214评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,788评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,796评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,665评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,027评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,679评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,346评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,664评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,766评论 1 331
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,412评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,015评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,974评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,203评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,073评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,501评论 2 343

推荐阅读更多精彩内容