
图片发自简书App
李培龙-滴滴出行-滴滴出行海量数据场景下的智能监控与故障定位实践
这里的维度增加意思是:根据一些经验,将某些能够直接观察到的指标进行组合,形成新的指标
根据后面页面意思,滴滴实际上是将这些指标在后台进行各种聚合操作,形成相关知识,并发现异常。
如果10000指标,两辆组合,那么就是1亿新指标,即为维度爆炸
但是,肯定有些指标组合在一起是没有关联的,演讲者并未指明;聚合操作也是依赖专家知识。

图片发自简书App
业务直接用sdk上报指标,可自定义
--滴滴业务比较新,可能不存在推广sdk的问题
用falcon存储时序数据--falcon主要开发者就在滴滴公司

图片发自简书App

图片发自简书App

图片发自简书App
单模型,用hw方法,滴滴大部分重要指标(一百个左右)都用这个方式
--人工发现周期
--人工配置参数,训练效果可疑
--异常判定,未使用hw自身的level区间,有疑问在问

图片发自简书App
多模型分类器

图片发自简书App

图片发自简书App
存在问题

图片发自简书App
实验新方法

图片发自简书App
也做了调用链
已经做到用户监控,能关联单用户和整个连路

图片发自简书App
使用tls来实现
并且提供数据透传服务,如压测标签

图片发自简书App

图片发自简书App