APM-Trace全链路追踪管理

前言

随着微服务的往多层分布式方向的发展,随着业务的增长,系统的膨胀和升级。问题排查,性能分析,架构优化越来越复杂。因此出现了APM(Application Performance Management)思想,全链路追踪管理

发展

image.png
名称 出现时间 地址 备注
Dapper Apr-10 https://bigbully.github.io/Dapper-translation/ 谷歌公司发布的一篇论文,全链路追踪系统的思想源头
CAT 2011 https://github.com/dianping/cat 国内开源
Pinpoint Jul-12 https://github.com/pinpoint-apm/pinpoint 比较比较完善也比较有名的APM系统,页面功能完善,对java友好,不过封装比较死,代码庞大,依赖hbase,迭代开发麻烦
Zipkin 2012 https://zipkin.io/pages/extensions_choices.html 轻量级APM平台
skywalking 2017 https://github.com/apache/skywalking apache顶级项目,比较成熟,支持opentrace协议
jaeger 2017 https://github.com/jaegertracing/jaeger CNCF毕业项目,云开发时代新宠,支持opentrace协议
Opentelemetry 2019 https://opentelemetry.io/docs/what-is-opentelemetry/ CNCF提出可观测统一trace,logs,metrics。Opentelemetry 统一OpentTraceing和OpenCensus,统一标准,统一client library(跨语言),collector(支持contrib)

思路

痛点

image.png

借Dapper文章图片可知,在分布式系统的调用中,一次请求会经过庞大系统中的某些服务,如果想观测这一次请求中产生的指标和日志,以及走过的路径,需要如何实现,在快捷快速接入的同时,不对整个分布式系统产生影响是很麻烦的。

数据结构

image.png

通过对一次请求调用的分析和抽象,可以定义这样的一个数据结构。基本上大部分APM系统都是按dapper的思路做的,因此在数据结构上都有相似性。

{
    "trace_id": "一次分布式调用的唯一ID",
    "span_id": "当前执行步骤的唯一ID",
    "span_parent_id": "上一次执行步骤的唯一ID",
    "span_name": "执行步骤名称",
    "start_time": "当前执行步骤的开始时间",
    "end_time": "当前执行步骤的结束时间",
    "tags": "当前执行步骤的一些标签,比如http.method,系统版本",
    "events": "当前执行步骤的一些事件"
}

一些APM系统的架构

Pinpoint

官网定义

image.png

抽象

image.png

数据流程

1,pinpoint采集器采集指标,主要支持java,php。java使用javaagent探针字节码注入的方式,且支持了非常多的中间件包括不仅仅有springboot,netty,kafka等,不过由于pinpoint的开发时间较早,无法支持opentraceing协议。
2,pinpoint agent采集数据后,发送到Pinpoint Collector中。
3,Pinpoint Collector将trace数据写入到hbase中。
4,Pinpoint web查询hbase数据,返回前端客户。

Jaeger

官方定义

image.png

抽象

image.png

数据流程

1,同理agent采集指标。支持opentracing协议。
2,Collector加工数据到存储中。主要存储为elasticsearch,主要存储索引为三个(jaeger-span,jaeger-dependances,jaeger-service)
3,spark,flink二次加工数据到存储中,主要是拓扑图数据。
4,JaegerUI查询存储中的数据返回。如果是要查看指标则使用SPM。需要单独接一个Metrics数据源。

Opentelemetry解决方案

除了pinpoint,jaeger业内还有很多优秀的APM系统,比如skywalking,zipkin等,因此客户在接入一个厂商后,后期的切换和支持非常麻烦。因此CNCF在2019年统一了OpentTraceing和OpenCensus。主要统一的方面有三个。
1,标准,或者说规则。
2,客户端(client library),不同厂商不同的客户端,客户接入一个后就不能接其他的。因此统一了采集器客户端并支持跨语言。
3,collector,通过分析和抽象大部分的APM的架构,基本上都存在一个数据加工的Collector,且都绑定了相应的存储系统。因此Opentelemetry统一了Collector,客户可以支持多种数据源的输入和输出。与存储解耦。

官方定义

image.png

主要有以下几个组件
1)Receivers:
负责接收不同格式的 telemetry data,对于 trace 来说就是 Zipkin、Jaeger、OpenCensus 以及其自研的 OTLP。除此之外,还可以支持从 Kafka 中接收以上格式的数据,可以定制开发。
2)Processors:
负责实施处理逻辑,如打包、过滤、修饰、采样等等,尾部采样逻辑就可以在这里实现。
3)Exporters:
负责将处理后的 telemetry data 按指定的格式重新输出到后端服务中,如 Zipkin、Jaeger、OpenCensus 的 backend,也可以输出到 Kafka 或另一组 collector 中,可以定制开发。
4)Extensions:
提供一些核心流程之外的插件,如分析性能问题的 pprof,健康监测的 health 等等。

使用

Collector模式(推荐

image.png

部署模式优缺点
1,保证客户流量只需要对内,安全管理方便。
2,中心集群方便做尾采样。
3,权限管理方便。

网关模式

image.png

部署模式优缺点
1,简单方便。
2,客户安全权限控制麻烦。
3,客户端链接过多。网络延迟等。

OTEL业内思路

image.png

一些以OTEL思路开发的参考

1,得物(https://cloud.tencent.com/developer/article/2188712
2,腾讯(https://cloud.tencent.com/developer/article/1975542?from=article.detail.2188712&areaSource=106000.8&traceId=RdXXf1V3PpCrKgdhSngsS
3,阿里(https://mp.weixin.qq.com/s/rgms8ROe6o_2ijEZ2g4Xzg

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,937评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,503评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,712评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,668评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,677评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,601评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,975评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,637评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,881评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,621评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,710评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,387评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,971评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,947评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,189评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,805评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,449评论 2 342

推荐阅读更多精彩内容