开始之前先仔细阅读skywalking创始人吴晟的一些文章资料:
对skywalking架构设计、性能调优感兴趣可以查看作者的文章:
TraceSegment
skywalking中关于trace
的一些概念,较opentracing来说是进行了一些扩展,比如其核心TraceSegment
表示一类span的聚合。
我们这样来理解:在微服务架构中,一个请求基本都会涉及跨进程(以及跨线程)的操作,例如, RPC 调用、通过 MQ 异步执行等这类操作就需要涉及到多个服务的多个线程,TraceSegment
就记录了一个请求在一个线程中的执行流程。当将该请求所关联的全部 TraceSegment
串起来,就能得到该请求的完整 Trace
,总结来说即是:
- 一个
trace
由多个tracesegment
构成 - 一个
Tracesegemnt
记录了一个请求在一个线程中的执行流程 - 一个
TraceSegment
内包含一个Span
集合
TraceSegment
的核心字段结构如下:
-
traceSegmentId
(ID 类型):通过GlobalIdGenerator
生成,是TraceSegment
的全局唯一标识。 -
ref
(TraceSegmentRef
类型):它指向父TraceSegment
。在 RPC 调用、HTTP 请求等跨进程调用中,一个TraceSegment
最多只有一个父TraceSegment
,但是在一个Consumer
批量消费 MQ 消息时,同一批内的消息可能来自不同的Producer
,这就会导致Consumer
线程对应的TraceSegment
有多个父TraceSegment
了,系统只保留第一个父TraceSegment
,早期版本是保留了全部 。 -
relatedGlobalTraceId
(DistributedTraceIds
类型):记录当前TraceSegment
所属Trace
的 Trace ID,批处理场景下也只保留第一个。 -
spans
(List<AbstractTracingSpan>
类型):当前TraceSegment
包含的所有Span
。 -
ignore
(boolean
类型):ignore
字段表示当前TraceSegment
是否被忽略。主要是为了忽略一些问题TraceSegment
(据说是对只包含一个Span
的Trace
进行采样收集)。 -
isSizeLimited
(boolean 类型):每个TraceSegment
中Span
的个数是有上限的(默认值为 300,可动态配置),超过上限之后,就不再添加Span
了;这是一个内存保护措施。
Span
skywalking中Span
分为 2大类,RemoteSpan
和LocalSpan
,其中RemoteSpan
又分为EntrySpan
和ExitSpan
:
EntrySpan
:当请求进入服务时,会创建EntrySpan
类型的Span
,它也是TraceSegment
中的第一个Span
。例如,HTTP 服务、RPC 服务、MQ-Consumer 等入口服务的插件在接收到请求时都会创建相应的EntrySpan
。ExitSpan
:当请求离开当前服务、进入其他服务时会创建ExitSpan
类型的Span
。例如, Http Client 、RPC Client 发起远程调用或是 MQ-producer 生产消息时,都会产生该类型的Span
。LocalSpan
:它是在本地方法调用时可能创建的Span
类型,处于EntrySpan
和ExitSpan
之间,应用程序中可通过@Trace 注解标注在方法上创建一个LocalSpan
。
TracingContext
每个 TraceSegment
都绑定一个 TracingContext
上下文对象,记录了 TraceSegment
的上下文信息。
提供的功能有:
- 管理
TraceSegment
生命周期 - 创建
Span
比如三个创建Span的方法#createEntrySpan
、#createLocalSpan
方法、#createExitSpan
- 跨进程传播上下文
- 跨线程传播上下文
跨进程传播
ContextCarrier
见名知意,是Context
的搬运工(Carrier),负责在进程之间搬运 Context
的一些基本信息,将夸进程调用链 连接起来。
看下其成员的作用:
traceId
(String 类型):它记录了当前 Trace ID。traceSegmentId
(ID 类型):从 Client 端看,它记录了 Client 中 `TraceSegment ID;从 Server 端看,记录的是父 TraceSegment 的 ID。spanId
(int 类型):从 Client 端看,它记录了当前ExitSpan
的 ID;从 Server 端看,记录的是父Span
的 ID。parentService
:它记录的是 Client 的服务描述信息parentServiceInstance
:它记录的是 Client 服务实例的描述信息parentEndpoint
(String
类型):它记录了 Client 端的EndpointNameaddressUsedAtClient
(String
类型):它记录了 client端请求Server 端的地址(ip:port, hostname:port) 。extensionContext
(ExtensionContext
类型):作为扩展上下文 ,其内包含一些可选上下文,以增强某些场景中的分析。correlationContext
(CorrelationContext
类型):作为容器,用于放置用户自定义的Context信息。
跨进程传播 Context 上下文信息的核心流程大致为:
远程调用的 Client 端会调用
inject(ContextCarrier)
方法,将当前TracingContext
中记录的Trace
上下文信息填充到传入的ContextCarrier
对象。后续 Client 端的插件会将
ContextCarrier
对象序列化成字符串并将其作为附加信息添加到请求中,这样,ContextCarrier
字符串就会和请求一并到达 Server 端。Server 端接收请求的插件会检查请求中是否携带了
ContextCarrier
字符串,如果存在ContextCarrier
字符串,就会将其进行反序列化,然后调用extract()
方法从ContextCarrier
对象中取出 Context 上下文信息,填充到当前TracingContext
(以及TraceSegmentRef
) 中。
对于Dubbo组件来说,其ContextCarrier
的传播过程如下图所示:
序列化之后的 ContextCarrier
字符串会利用attachments
的机制放到 RpcContext
中,在服务端从attachments
中取出反序列化后填充到当前TraceContext
中。
跨线程转播
跨线程转播,是在同一个进程中,不同的线程之间传递,这个传递过程不需要序列化,遵循以下步骤实现:
- 调用
ContextManager#capture
方法获取ContextSnapshot
对象 - 把这个
ContextSnapshot
对象传递给子线程 - 在子线程中调用
ContextManager#continued(ContextSnapshot snapshot)
方法
最后说一句(请关注,莫错过)
对skywalking架构设计、性能调优感兴趣可以查看作者的文章:
如果这些内容对您有所帮助,或者有所启发的话,帮忙扫描二维码,关注公众号:「架构染色」,进行交流和学习。您的支持是我坚持写作最大的动力。