分布式链路追踪要怎么玩

微信公众号:moon聊技术
关注选择“ 星标 ”, 重磅干货,第一 时间送达!
[如果你觉得文章对你有帮助,欢迎关注,点赞,转发]

image

前言


最近公司服务出现了一个bug,问题一直没有查出来在哪里,主要是某个接口调用两个应用的日志输出都没有问题,并且在整个请求链路较长,仅仅定位这个问题就定位了很久,效率奇低,于是'在moon的强烈要求下',准备在各服务接入分布式链路追踪框架了。

为什么需要分布式链路追踪


截屏2021-03-23 下午5.41.06.png

在现有的微服务体系架构下,随着服务数量的增多,服务与服务之间的关联关系错综复杂,一个请求下发后可能会经过N个服务处理后才返回响应,所以,当出现bug时,开发人员只能依靠日志一个个排查,效率低的可怕,于是,分布式链路追踪成为了你的最优解。

当然这只是其中一个因素,分布式链路追踪能够解决服务链路的问题,他还可以做到:

  • 1:查询每个应用的ip
  • 2:各个接口响应了多长时间,网络开销是多少
  • 3:应用的执行时间,是否执行成功
  • 4:总共消耗了多长时间
  • 5:每个接口返回了什么内容,请求的内容又是什么?
  • 6:每个应用调了多少次数据库? ..................

trace_ID


那么怎么样才能判断一个请求发起到结束究竟经过了哪些服务呢?

大家肯定想到了一个唯一Id来实现,就是说,我的请求在发起时,创建一个全局的唯一Id,然后在后面的请求传递的时候都把这个Id带上,这样,就可以通过这个唯一Id来判断究竟经过了哪些服务。

如下图:

截屏2021-03-23 下午5.41.12.png

我们可以通过trace_ID清晰的发现一个从A开始的请求都经过了那些服务

span_ID


现在我们知道了所有调用的服务,但是我们还会发现一个问题,我们发现A服务在调用B服务的时候,会B会调用两个服务,一个是服务C,一个是服务B,那么这个先后关系有要怎么判断呢?

截屏2021-03-23 下午5.41.18.png

没错,就是再引入一个span_ID来判断服务的先后调用顺序,如图,就可以判定调用链路为

服务A->服务B->服务C->服务D->服务E->服务F

parent_ID


当然,父子间的调用关系我们就可以用一个parent_ID去管理了

截屏2021-03-23 下午5.41.24.png

比如:我们看到服务C的parent_ID为2,那么我们就知道span_ID为2的服务调用了服务C,也就是服务B调用了服务C

OpenTracing是什么


由于各种调用链监控产品层出不穷,各式各样,为了避免碎片化,促进互操作性,社区诞生了一个叫做OpenTracing的标准化组织,制定了一些链路跟踪的API规范,并且提供了一些框架和库,这些框架和库实现了它制定的那些API规范。而且它是一个独立开放的项目,现在已经是云原生基金会(Cloud Native Computing Foundation, CNCF)的项目了。任何组织和个人都可以贡献符合API规范的库/框架。

截屏2021-03-25 上午10.50.30.png

OpenTracing提供的框架和库需要重点说明的是,并不做分析,所以其并不是一个完备的链路系统.

OpenTracing旨在标准化Trace数据结构和格式,其目的是:

  • 不同语言开发的Trace客户端的互操作性,只要遵循OpenTracing标准,就都可以对接OpenTracing兼容的监控后端。
  • Tracing监控后端的互操作性,只要遵循OpenTracing标准,企业可以根据需要替换具体的Tracing监控后端产品,比如从Zipkin替换成Skywalking等后端。

分布式链路跟踪系统的数据模型:


在OpenTracing规范中,有三个关键的,相关关联的类型:Tracer,Span和SpanContext

Traces(一般翻译为链路):一起请求从发出,然后经过多个模块(这个模块可能是函数或者系统,或者都有),最终得到请求回复,整个请求按照调用时间和关系串起来就是一个trace。

Span则是组成trace的最基本单元,它一般代表分布式系统中一个独立的工作单元。一个Span包含如下几部分:

  • 操作名称:一般用于展示、过滤、聚合

  • 开始和结束时间戳:用于计算耗时 由key-value组成的Tags:用于添加一些时间无关的信息(可选) 由key-value组成并包含时间戳的Logs:用于添加一些时间相关的信息(可选)

  • SpanContext。一般包含两部分数据:

    • (1)span的状态数据,比如traceID和spanID
    • (2)Baggage Items。Baggage是链路跟踪提供的一个通用的跨进程/服务传递数据的方式,格式也是key-value形式的。
  • Trace就是由若干个span组成的有向无环图,图中的每个节点就是Span,连接节点的边称之为References。每个trace有一个唯一标识符traceID,每个span也有一个唯一标识符spanID。一个链路中的所有span的traceID是相同的,但spanID各不相同。一个链路中span典型的调用关系图如下:

截屏2021-03-24 下午4.24.07.png

对应的时间维度为:
截屏2021-03-24 下午4.24.27.png

一个trace的span间有两种可能的关系:

  • ChildOf:即父子关系,一个操作可以是另一个操作的子操作,在一个ChildOf引用中,父操作在一定程度上依赖于子操作,可以说,等子操作都完成之后父操作才会完成。
  • FollowsFrom:其实也是父子关系,子Span是由父Span调用产生的,但父Span是否完成不依赖于子Span,在这种场景下,子操作仅仅由父操作触发。符合这种关系的操作可以进一步分成很多子类型,。

最后需要介绍的一个概念就是“active span”。一个线程里面可以包含多个span,但同一时刻只能有一个span处于工作状态,这个span称之为ActiveSpan。Span可以有这么几个状态:

  • Started
  • Not Finished
  • Not "active"
  • Active Span的状态由ScopeManager管理,但是否实现由开发者决定。另外OpenTracing定义了Inject和Extract接口来简化SpanContext跨进程传递。

总结


1:分布式链路追踪就是将一次完整的请求链路还原,能够清晰的追踪到每个服务的信息

2:由于分布式链路追踪实现方式多样,于是opentracing组织定制了一个规范,定义了一个标准,最重要的三个指标就是Tracer,Span和SpanContext

巨人的肩膀 https://niyanchun.com/opentracing-introduction.html

要是觉得文章还不错,顺手点个赞和在看吧,大家的支持就是我最大的动力,还可以关注我的公众号加moon的个人微信,做个萍水之交可好~

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,928评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,192评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,468评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,186评论 1 286
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,295评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,374评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,403评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,186评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,610评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,906评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,075评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,755评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,393评论 3 320
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,079评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,313评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,934评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,963评论 2 351

推荐阅读更多精彩内容