随着互联网业务扩张和架构的升级,系统变得日趋复杂,越来越多的组件开始走向分布式化,如微服务、消息收发、分布式数据库、分布式缓存、分布式对象存储、跨域调用,这些组件共同构成了繁杂的分布式网络。那么我们如何评估业务支撑系统的健康状况和收集服务性能指标以及服务治理,有没有办法知道各组件各系统之间调用链关系是怎样的,哪个节点有异常,哪个接口耗时过长等等,解决方案就是调用链跟踪监控系统。在业界,twitter 的 zipkin 和淘宝的鹰眼就是类似的系统,它们都起源于 Google Dapper 论文,其他很多公司有自己的解决方案,如京东商城的Hydra、eBay的Centralized Activity Logging (CAL)、大众点评网的CAT、新浪的Watchman等等。开源解决方案有skywalking,收费的产品有dynatrace(性能最好,C++代码进入JVM监控)。
这样的调用链跟踪监控系统通常有几个设计目标:
(1)低侵入性——作为非业务组件,应当尽可能少侵入或者无侵入其他业务系统,对于使用方透明,减少开发人员的负担;
(2)灵活的应用策略——可以(最好随时)决定所收集数据的范围和粒度;
(3)时效性——从数据的收集和产生,到数据计算和处理,再到最终展现,都要求尽可能快;
(4)决策支持——这些数据是否能在决策支持层面发挥作用,特别是从 DevOps 的角度;
(5)可视化才是王道
实现调用链跟踪监控系统,首先是拦截执行方法,然后进行调用日志埋点,一个完整的调用链可能经过了跨进程跨网络,因此我们需要用线程上下文传递trace_id,方法的调用关系借助栈,方法执行开始压入span,方法执行完成弹出销毁span。方法嵌套调用需要记录父子span,比如父方法span=0,子方法span=0.1,下一个子方法span=0.2,子方法的子方法span=0.2.1, 以此类推。
我们来实现一个基本的调用链跟踪架构,具体方案选用javaagent+bytebuddy字节码技术进行方法拦截和埋点,日志采集和存储使用flume+hbase。
实现大致分为这几个部分
1、编写javaagent, 完成方法拦截,调用日志写入
2、下载安装hbase, 创建表
3、下载安装flume,配置采集日志与数据整理入hbase
4、新建服务端与客户端应用,java参数挂javaagent,启动tomcat,调用接口。
5、日志采集后被格式化存入hbase,查询hbase记录并展示调用链
第一步:编写javaagent并打包
javaagent中我们实现http调用,因此需要拦截org.apache.http.impl.client.InternalHttpClient.doExecute()方法,将上下文的trace_id,span加入HTTP_HEADER,springmvc我们对@RequestMapping注解方法取出HTTP_HEADER,就拦截org.springframework.web.servlet.mvc.annotation.AnnotationMethodHandlerAdapter.invokeHandlerMethod()方法
代码结构如下
为了无侵入接入,我们整了一个配置文件,应用中加入配置文件tracer-agent.conf, web项目建议放到项目跟路径,没有的话将使用默认配置。
#启用开关
trace.enable=on
#应用名
app.name=app-amon-rudder
#包含拦截类基本包路径
scan.include.package=
#排除拦截类基本包路径
scan.exclude.package=
#包含拦截类的注解
scan.annotation.class=org.springframework.stereotype.Controller;org.springframework.stereotype.Service;org.springframework.stereotype.Repository;org.springframework.stereotype.Component;
#采样率
sampling.rate=100:100
#实时采样参数
sampling.real.time.trace.param=real_time_trace_id
#调用链最大长度
span.maxLength=255
#日志级别
log.level=INFO
#日志路径
log.filePath=/opt/log/tracer-agent/tracer-agent.log
注意:因为javaagent的classloader与tomcat的classloader不一样,因此我们将javaagent的jar用mavan插件打成fatjar,打包后为tracer-agent-0.0.1-SNAPSHOP.jar。
// pom.xml
<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/maven-v4_0_0.xsd">
<modelVersion>4.0.0</modelVersion>
<groupId>org.easyframework.tracer</groupId>
<artifactId>tracer-agent</artifactId>
<version>0.0.1-SNAPSHOT</version>
<properties>
<maven.compiler.source>1.8</maven.compiler.source>
<maven.compiler.target>1.8</maven.compiler.target>
<project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
<net.bytebuddy.version>1.7.11</net.bytebuddy.version>
<maven.test.skip>true</maven.test.skip>
</properties>
<dependencies>
<dependency>
<groupId>net.bytebuddy</groupId>
<artifactId>byte-buddy</artifactId>
<version>${net.bytebuddy.version}</version>
</dependency>
<dependency>
<groupId>net.bytebuddy</groupId>
<artifactId>byte-buddy-agent</artifactId>
<version>${net.bytebuddy.version}</version>
</dependency>
<dependency>
<groupId>org.apache.httpcomponents</groupId>
<artifactId>httpcore</artifactId>
<version>4.4.12</version>
</dependency>
<dependency>
<groupId>org.slf4j</groupId>
<artifactId>slf4j-api</artifactId>
<version>1.7.30</version>
</dependency>
</dependencies>
<build>
<plugins>
<plugin>
<groupId>org.apache.maven.plugins</groupId>
<artifactId>maven-shade-plugin</artifactId>
<version>3.2.4</version>
<executions>
<execution>
<phase>package</phase>
<goals>
<goal>shade</goal>
</goals>
<configuration>
<transformers>
<transformer implementation="org.apache.maven.plugins.shade.resource.ManifestResourceTransformer">
<manifestEntries>
<Premain-class>org.easyframework.tracer.agent.TraceAgent</Premain-class>
</manifestEntries>
</transformer>
</transformers>
<filters>
<filter>
<artifact>*:*</artifact>
<excludes>
<exclude>META-INF/maven/**</exclude>
</excludes>
</filter>
</filters>
</configuration>
</execution>
</executions>
</plugin>
<plugin>
<artifactId> maven-assembly-plugin </artifactId>
<configuration>
<descriptorRefs>
<descriptorRef>jar-with-dependencies</descriptorRef>
</descriptorRefs>
</configuration>
<executions>
<execution>
<id>make-assembly</id>
<phase>package</phase>
<goals>
<goal>single</goal>
</goals>
</execution>
</executions>
</plugin>
</plugins>
</build>
</project>
说明: <Premain-class>org.easyframework.tracer.agent.TraceAgent</Premain-class>
就是我们javaagent启动类,maven打包后会写入MANIFEST.MF中。
调用拦截,我们用bytebuddy,基于ASM技术,拦截到方法我们使用栈先进后出打入日志埋点,使用tracer_id, span进行跟踪调用。
我们加入了slf4j-api.jar,没有用log4j实现,这样的话fatjar不但要加入大量jar并且配置文件读写也是问题,因此自己实现了简易的slf4j-api日志写入。
第二步: 下载安装并配置HBASE
hbase安装配置后,启动hbase:./start-hbase.sh
进入shell命令:./hbase shell
创建表 create 'tracer_log','log' (表tracer_log,列簇log,ps:hbase是基于列存储,插入数据是会指定列簇、列)
第三步:下载安装并配置flume
flume启动后配置conf/flume-conf.properties,采集日志的source(采集我们选type=TAILDIR )channel(管道我们用type=memory)sink(存储我们选type=hbase)
agent.sources = s
agent.channels = c
agent.sinks = sink
# For each one of the sources, the type is defined
agent.sources.s.type = TAILDIR
agent.sources.s.filegroups = f1
agent.sources.s.filegroups.f1=/opt/log/tracer-agent/.*log.*
agent.sources.s.positionFile=/opt/log/position.json
#agent.sources.s.fileHeader = false
#agent.sources.s.type=exec
#agent.sources.s.command= tail -f /opt/log/tracer-agent/tracer-agent.log
# The channel can be defined as follows.
agent.sources.s.channels = c
# Each sink's type must be defined
agent.sinks.sink.type =org.apache.flume.sink.hbase.HBaseSink
agent.sinks.sink.table = tracer_log
agent.sinks.sink.columnFamily = log
agent.sinks.sink.serializer = org.apache.flume.sink.hbase.RegexHbaseEventSerializer
agent.sinks.sink.serializer.colNames =trace_id,parent_span,span,app_name,trace_type,trace_status,method,cost
agent.sinks.sink.serializer.regex =\\[(.*?)\\]\\ \\[(.*?)\\]\\ \\[(.*?)\\]\\ \\[(.*?)\\]\\ \\[(.*?)\\]\\ \\[(.*?)\\]\\ \\[(.*?)\\]\\ \\[(.*?)\\]
#Specify the channel the sink should use
agent.sinks.sink.channel = c
# Each channel's type is defined.
agent.channels.c.type = memory
#agent.channels.c.keep-alive = 60
agent.channels.c.capacity = 10000
agent.channels.c.transactionCapacity = 1000
# Other config values specific to each type of channel(sink or source)
# can be defined as well
# In this case, it specifies the capacity of the memory channel
#agent.channels.c.capacity = 100
说明: tail -f /opt/log/tracer-agent/tracer-agent.log 是我们trader-agent.jar写入埋点的日志,
\[(.?)\]\ \[(.?)\]\ \[(.?)\]\ \[(.?)\]是解析的日志格式
trace_id,span,method,cost是解析内容入库到hbase的列,表是之前间的表tracer_log、列簇log
启动flume: nohup ./bin/flume-ng agent --conf conf -f conf/flume-conf.properties -n agent -Dflume.root.logger=INFO,console
第四步:编写server client应用,并启动tomcat
将tracer-agent-0.0.1-SNAPSHOT.jar放入目录$CATALINA_HOME/shared/,tracer-web-0.0.1-SNAPSHOT.war、tracer-client-0.0.1-SNAPSHOT.war放入目录$CATALINA_HOME/webapp
配置tomcat启动javaagent,新建setevn.sh
CATALINA_OPTS='$CATALINA_OPTS -javaaget:$CATALINA_HOME/shared/tracer-agent-0.0.1-SNAPSHOT.jar'
第五步:调用接口产生日志,查询hbase调用关系
tracer_agent写入埋点日志
查看日志解析入库hbase
现在我们看一条完整调用链
1、先查询span=0标识调用入口日志
scan 'tracer_log',FILTER=>"ValueFilter(=,'binary:0')", LIMIT=>5, STARTROW=>'1648629817994-mPgvQTGlj3-12'
2、选取1648629830006-mPgvQTGlj3-27,查询tracer_id
get 'tracer_log','1648629830006-mPgvQTGlj3-27','log:trace_id'
3、查询tracer_id=36539558382051的调用链
scan 'tracer_log',COLUMN=>'log:trace_id',FILTER=>"ValueFilter(=,'binary:36539558382051')"
4、根据row可以查询明细
5、根据明细列表并排序就可以画出调用链界面了
tracer-ui工程就是简单的查询hbase(分页暂未实现),并根据结果画页面,简单例子
方案总结:我们调用链跟踪javaagnet组件:tracer-agent.jar,可以挂tomcat上,拦截调用产生日志,flume抓取分析日志并入库hbase,页面展示工程tracer-ui.war查询和展示hbase数据。
难点:javaagent中拦截方法埋点日志如何设计比较难,1、要一条调用链上所有包括跨进程日志如何关联起来,用上下文以及跨进程traceId,2、调用类父子关系parentSpan及调用方法兄弟关系如何记录span ,这个涉及到调用链树展示,最后的效果是一条调用链是一颗树结构,类似打开文件夹。