问题来源
互联网项目通常都是大用户量,大并发,因此从技术架构上大多采用分布式架构构建成大型分布式系统,SOA或者是微服务,一个请求涉及到多个子系统,如果某个请求的处理不正常,怎么排查定位问题呢?如果没有合适的手段,排查问题无异大海捞针,为了提高解决问题的效率,迫切需要有一个技术手段能跟踪整个处理环节,并能够快速定位。一种可行的方案就是跟踪这个调用链,把每次请求的完整处理环节串联起来,这样就可以实现对调用路径的全程监控。
技术实现要点
采用日志埋点技术,在请求的处理入口处为该次请求分配一个TraceId(跟踪Id),将此TraceId依次传递给下一个处理环节,在每一个处理环节记录日志,这样通过这个TraceId就可以查询到从起始到处理完毕整个处理路径中的日志信息。
埋点日志记录的内容
TraceId、RPCId、调用的开始时间,调用类型,协议类型,调用方ip和端口,请求的服务名等信息;
调用耗时,调用结果,异常信息,消息报文等;
预留可扩展字段,为将来的扩展做预留;
记录内容可以根据业务的需要详细设计,原则就是要方便将来排查定位问题。
收集查询的实现
把埋点日志数据收集起来,再搭建一个查询系统就可以方便定位问题了,简单的查询分析系统可以采用ELK(Elasticsearch + Logstash + Kibana)来搭建。
参考文献,谷歌的Dapper论文:https://bigbully.github.io/Dapper-translation