flink自身提供的2中metric指标监控的方式
- 图形界面,通过flink自带的webui来查看
- restful api 通过flink暴露的接口来采集
- 可以试着打日志
- 可以采集jobmanager日志与taskmanager的日志信息,分析常见的failover的原因
flink任务监控系统
- 依赖于外部的系统grafana or JMX 来采集指标项
基于metric运维的优点
- 整合数据
监控指标项的定义
- 延迟 : 最近一个成功处理的数据offset 与最新生成的一条数据的offset的差值
有的系统可以直接返回值,有的需要通过metric来做 - 反压 : 直接判断问题算子
指标的设定
- JVM metrics
可以设置一些阈值 类似于cpu不得超过50%, 内存占用不超50%,GC比例不超15%,fullGC恒定 流数据 metrics
state metrics 当前checkpoint的进度,时长,文件大小,频率,checkpoint的失败恢复比例 DFS的设置,冗余,分片,DFS的管理,碎片文件管理,回收机制
metrics的局限性
难以保证准确性 -----需要做去噪处理
难以回答统计型分析
难以融合其他的metrics
自己遇到的线上问题
- 集群周期性的相应慢
有跑批量统计的定时任务