目前项目在从单体进化到了分布式架构以后,一个服务就会以多个副本的形式运行在不同的主机上,这样带来了性能和体验提升的同时,也为我们的开发运维同学带了一些痛点:
- 故障或者业务层面的异常出现,如何快速发现和定位问题?
- 服务之间相互依赖太多,如何判断一个点的问题对其他依赖服务的影响范围?
- 如何在宏观角度上梳理各个服务之间的依赖及合理性?同时对拓扑链路性能的问题进行分析和解决?
面对这一系列的难题,学术界是给出了一个 OpenTracing 规范,它是一个轻量级的标准化层,它位于应用程序/类库和追踪或日志分析程序之间,详细介绍见 opentracing文档中文版。随着并发和异步成为现代软件应用的必然特性,分布式追踪系统成为有效监控的一个必须的组成部分。当然在落地的工业界内对此项技术还有一个别称:APM(Application Performance Management-应用性有管理),APM致力于监控和管理应用软件性能和可用性。通过监测和诊断复杂应用程序的性能问题,来保证软件应用程序的良好运行
对此,目前真正去落到实践应用,主要有主流的4种开源解决方案:
一、CAT
github地址:https://github.com/dianping/cat
大众点评开源贡献,基于Java开发的实时应用监控平台,包括实时应用监控,业务监控 。 集成方案是通过代码埋点的方式来实现监控,比如: 拦截器,注解,过滤器等。这样做有利有弊,好处是可以在自己需要的地方加埋点,比较有针对性;坏处是必须改动现有系统,很多开发团队不愿意,侵入性较强,集成成本较高,风险较大。
二、ZipKin
官网:http://zipkin.io/
github地址:https://github.com/openzipkin/zipkin
由Twitter团队开源, Zipkin是一个分布式的跟踪系统。Zipkin的java应用端是通过一个叫Brave的组件来实现对应用内部的性能分析数据采集。这个组件通过实现一系列的java拦截器,来做到对http/servlet请求、数据库访问的调用过程跟踪,然后通过在spring之类的配置文件里加入这些拦截器,完成对java应用的性能数据采集。
三、PinPoint
github地址:https://github.com/naver/pinpoint
由韩国团队naver团队开源,针对大规模分布式系统用链路监控,使用java写的工具。灵感来自短小精悍,帮助分析系统的总体结构和内部组件如何被调用在分布式应用提供了一个很好的解决方案。使用java探针字节码增加技术,实现对整个应用的监控 ,对应用零侵入。
四、SkyWalking
github地址:https://github.com/apache/skywalking
2015年由个人吴晟(华为开发者)开源 , 2017年加入Apache孵化器。针对分布式系统的应用性能监控系统,特别针对微服务、cloud native和容器化(Docker, Kubernetes, Mesos)架构, 其核心是个分布式追踪系统。使用java探针字节码增加技术,实现对整个应用的监控 。 对应用零侵入!
五、Open-Falcon
github地址:https://github.com/open-falcon/falcon-plus
小米开源的监控系统,文档资料齐全,针对性监控Mysql、Redis、MQ、Solr、及硬件监控,功能局限性较大,监控应用内部性能比较麻烦,无法查询异常日志,不支持搜索
参考引用:
1、分布式链路追踪系统深入理解
2、分布式链路追踪技术对比
3、分布式链路追踪技术对比
猿码道的专栏文章:
4、全链路监控(一):方案概述与比较
5、基于Java Instrument的Agent实现
6、JVMTI Agent 工作原理及核心源码分析
7、JVMTI Attach机制与核心源码分析
8、墨竹博主的专栏对Zipkin以及Brave有许多的讲述。
Java分布式跟踪系统Zipkin:初识Zipkin