metric 收集我希望通过通过jar 包形式去接入。
本身监控-告警-服务降级就是一个闭环。第一环节做不好,自然你也不可能做好第二环节,和第三个环节。
1 目前存在情况
* 目前 pod 重启严重, 存活检测是以发请求的形式的检测。如果tomcat 请求堆积。 多次超过pod存活检测的时长,pod 会重启。我们需要监控tomcat 容器情况
* 目前接口出现soa超时 ,es 服务超时。你没有法快速定位到接口,以及获取接口最近1m,5m,15m 实际rt ,tps 。 这对于线上高并发环境,基本不可想象的。
* 当你提供服务的时候,别人需要对你接口的实际运行情况,有个初步了解,比如生命周期内服务接口的99% rt时间在20ms 之内 ,ok ,你这个接口是值得信任的。 如果是1s ,你的接口是需要优化的。
* 普罗米修斯 上报数据不准确。 几千tps变成几十亿。
1.1 功能简介
* 自动收集java运行状态。目前包括内存、线程、gc等信息(目前是有收集,可以后期完善)
* 提供方法级别最近1分钟 ,5分钟 ,15分钟 tps (接口tps 同样也是降级依据之一)(已完成)
* 提供方法级别最近1分钟 ,5分钟 ,15分钟 平均rt ,1max rt , min rt ,75%,95,99% rt ,99.9% rt(接口rt 能快够快速告知你哪个接口出现了问题。为后期服务降级提供依据)(已完成)
* 提供容器生命周期级别方法 ,75%,95,99% rt ,99.9% rt (生命周期内服务接口的99% rt时间,有利于直接评判这个接口是否需要优化的依据 )(已完成)
* 提供手动收集聚合。手动根据自定义时间片做sum、avg、max、min、sub等聚合数据(后期再做)
* 提供tomcat 相应的metric监控 (已完成)
* 暂时只支持日志输出
1.2 目前不支持
* 多tag
1.3 未来计划
* 通过client 聚合打点推送的方式到监控平台。提供更强大的监控告警服务。
1.4 开发周期
* 2周
1.5 接口设计
TpsCollector
getInstance 方法
参数 key 唯一标识
参数 时间区间
参数 输出方式
mark 方法 代码执行标记
RTCollector
getInstance 方法
参数 key 唯一标识
参数 时间区间
参数 输出方式
start 方法 代码开始标记
end 方法 代码结束标记
LifeCircleCollector
getInstance 方法
参数 key 唯一标识
参数 输出方式
start 方法 代码开始标记
end 方法 代码结束标记
TomcatMetricCollector 依赖于spring 嵌入式tomcat
1.6 tomcat metrics 收集
内嵌tomcat 容器使用任务队列TaskQueue ,默认长度为Integer.MAX_VALUE, 理论上永远不会 触发reject handle 。这里有两个问题,第一个问题,内存溢出,第二个问题 ,请求堆积后,必然超时。
这里有两点需要注意的,
1. tps 异常下降,taskqueue size保持不变或者上升时,那么说明当前线程池出现了阻塞。这种情况 taskqueue size 不高 ,但是也会造成超时。
2. tps 上升,taskqueue size上升时,那么说明当前tomcat处理能力已经到了极限。任务队列出现了堆积。
taskqueue size metrics 收集是必然的 。
public void createExecutor() {
internalExecutor = true;
TaskQueue taskqueue = new TaskQueue();
TaskThreadFactory tf = new TaskThreadFactory(getName() + "-exec-", daemon, getThreadPriority());
executor = new ThreadPoolExecutor(getMinSpareThreads(), getMaxThreads(), 60, TimeUnit.SECONDS,taskqueue, tf);
taskqueue.setParent( (ThreadPoolExecutor) executor);
}
info | 172 | 1626251672584 | 2021-07-14 16:34:32 | v2/TomcatMetricsCollectorImpl$1/run | online | - | 1 | - | - | cli | j241 | 0.2 | 192.168.1.11 | - | 2 | TomcatMetricsCollectorImpl$1 | run | 62809109a88d4924bab9ed28f25531aa | - | - | - | - | 1 | 0 | TomcatMetrics{taskQueueSize=0, submitTaskSize=0, completeTaskSize=0, coreThreadNum=10, maxThreadNum=200, activeThreadNum=0}
1.7 有关手动收集
目前提供5种聚合方式,分别为求和、求最大值、求最小值、求差值、求平均;通过在getCollector中指定对应的类型就可以得到相应的聚合收集器;在解释一下关于不同收集器的具体的作用前,时间片的概念,目前的sdk可以支持自定义时间片;而这个时间片的作用是,在时间片内的数据会被聚合成一个数据;比如:如果你设置的时间片为1秒,那么不论你在1秒内提交了多少次数据,我都会把这次数据聚合成一个数据传给监控系统或者日志输出,而聚合方式就是下面要介绍的: