1、启动History Server
1.1 准备一个spark-client
1.2 基本配置(必须)
A、可配置的参数:
B、两种配置方式,spark-defaults.conf中直接添加配置项和在spark-env.sh中配置环境变量SPARK_HISTORY_OPTS二选一
a、spark-default.conf 直接添加配置项示例:
spark.history.ui.port 8088
spark.history.fs.logDirectory hdfs://xxx/log
spark.history.retainedApplications 20
b、在spark-env.sh中配置环境变量SPARK_HISTORY_OPTS示例:
export SPARK_HISTORY_OPTS="-Dspark.history.ui.port=8088 -Dspark.history.retainedApplications=20 -Dspark.history.fs.logDirectory=hdfs://xxx/log"
1.3 启动
$sh sbin/start-history-server.sh
2 客户端配置
客户端是指提交spark作业的spark-client,和启动History Server的spark-client可以是同一个,也可以不同,但需要保证版本一致
2.1 可配置的参数
2.2 配置示例(在spark-default.conf中添加):
spark.eventLog.enabled true
spark.eventLog.dir hdfs://xxx/log(需要和HistoryServer的参数:spark.history.fs.logDirectory 值保持一致)
spark.yarn.historyServer.address ip:port(ip是启动HistoryServer的机器ip,port需要和HistoryServer的参数spark.history.ui.port 值保持一致)
spark.eventLog.compress true
spark.io.compression.codec lzf
3 查看spark作业的History
3.1 通过作业链接查看
提交一个spark作业,作业结束后,点击History链接查看作业运行历史
3.2 在History 页面查看
登陆spark.yarn.historyServer.address 配置的地址,查看所有已结束的spark作业