以往我们一般通过 SDK、字节码增强或手动埋点方式主动插入追踪代码,这给应用开发者带来了沉重的负担,他们需要适配各种开发语言和 RPC 框架。当业务使用非 Java 语言实现时,即使 Tracer 可以通过 SDK 进行封装以降低侵入性,也还会存在 SDK 更新导致应用需要重新发布的问题。另一方面,在云原生环境下手动插码的方式迎来了更多的挑战,任何一个应用调用需要穿越从微服务、Sidecar、iptables/ipvs 容器网络、虚拟机 vsiwtch、云网络、NFV网关等复杂的路径,可观测性建设应该能覆盖云原生环境下从应用到基础设施的全栈,但这并不能通过向业务代码中插入追踪代码来实现。
基于 eBPF,DeepFlow 创新的实现了零侵扰的分布式追踪。DeepFlow 将 eBPF Event、BPF Packet、Thread ID、Coroutine ID、Request 到达时序、TCP 发送时序进行关联,实现了高度自动化的分布式追踪(AutoTracing)。目前 AutoTracing 支持所有同线程调用场景和部分跨线程调用(通过解析协议头和 MySQL Comment 中的 X-Request-ID、TraceID/SpanID)场景,支持所有内核线程调度(Kernel Threads (opens new window))场景和部分用户态线程调度(User Threads,例如 Golang Goroutine)场景,在这些场景下支持对任意服务的分布式调用链进行追踪。
基于 Spring Boot Demo 的AutoTracing简单体验
使用如下命令可在 K8s 中快速部署 Demo
kubectl apply -n deepflow-otel-spring-demo -f https://raw.githubusercontent.com/deepflowio/deepflow-demo/main/DeepFlow-Otel-Spring-Demo/deepflow-otel-spring-demo.yaml
可以通过wget
将deepflow-otel-spring-demo.yaml
下载下来重复使用。
关闭自动访问服务,选择手动触发
kubectl delete deployment loadgenerator -n deepflow-otel-spring-demo
kubectl get svc -A | grep otel
查看deepflow-otel-spring-demo的web-shop容器ip与端口
配置nginx域名访问
server {
listen 80;
server_name ecs-otel-spring;
location / {
proxy_pass http://10.96.3.207:8090;
proxy_set_header Host $host;
proxy_set_header X-Real-IP $remote_addr;
proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for;
}
}
浏览器输入http://ecs-otel-spring/shop#
,访问demo页面,点击页面上最右边的Full TestCase按钮执行测试
可以在控制台看到一条对路径
/shop/full-test
的访问请求前往 Grafana,打开
Distributed Tracing Dashboard
,选择 request_resource = /shop/full-test
后,可选择一个调用进行追踪。DeepFlow 的追踪数据中含有三种 Span,跟踪一次请求的整个轨迹:
- N:通过 BPF 从网络流量中提取的 Span
- S:通过 eBPF 从系统或应用函数调用中提取的 Span
- A:通过 OTel 从应用内部采集的 Span
上图中展示了前两种,第三种在集成 OpenTelemetry 可以展示出来。
集成 OpenTelemetry
我们推荐使用 agent 模式的 otel-collector 向 deepflow-agent 发送 trace 数据,以避免数据跨 K8s 节点传输。其他模式见官方文档。
安装 otel-agent
kubectl apply -n open-telemetry -f https://raw.githubusercontent.com/deepflowio/deepflow-demo/main/open-telemetry/open-telemetry.yaml
安装完毕之后,可以使用命令kubectl get all -n open-telemetry
在环境里看到这样一个组件清单
配置 otel-agent。由于这里使用的是官方修改后的open-telemetry.yaml
,将 trace 发送至 DeepFlow的配置已经配好,可以使用下面的命令核对当前运行的OTel配置是否符合官方教程推荐的配置
kubectl get cm -n open-telemetry otel-agent-conf -o custom-columns=DATA:.data
为了配置deepflow,需要安装下载deepflow-ctl
,deepflow-ctl
是管理 DeepFlow 的一个命令行工具,建议下载至 deepflow-server 所在的 K8s Node 上,用于后续使用
curl -o deepflow-ctl https://deepflow-ce.oss-cn-beijing.aliyuncs.com/bin/ctl/stable/linux/$(arch | sed 's|x86_64|amd64|' | sed 's|aarch64|arm64|')/deepflow-ctl
chmod a+x deepflow-ctl
使用./deepflow-ctl agent list
确认 deepflow-agent 所在的采集器组,这里是全新的环境,所以为 default 的组的ID,可以通过删除/opt/
下的deepflow-mysql
以及deepflow-clickhouse
中的数据恢复默认
使用
./deepflow-ctl agent-group list
查看default
组的id使用
./deepflow-ctl agent-group-config list
查看default
组是否有配置这里是
default
组没有配置。创建一个
default-agent-group-config.yaml
文件,并添加开启 deepflow-agent 的数据接收服所需的配置
cat << EOF > default-agent-group-config.yaml
vtap_group_id: g-142d53c090 #这里要改成你的default组id
external_agent_http_proxy_enabled: 1 # required
external_agent_http_proxy_port: 38086 # optional, default 38086
EOF
使用如下命令基于 default-agent-group-config.yaml
文件新建配置:
./deepflow-ctl agent-group-config create -f default-agent-group-config.yaml
使用./deepflow-ctl agent-group-config list
查看default
组有了配置
查看配置文件,与所创建的配置文件属性一致
./deepflow-ctl agent-group-config list g-142d53c090 -o yaml
如果你的环境中已经存在配置文件,可参考官方教程中的"更新采集器组的配置"更新配置文件。
点击demo页面的Full TestCase按钮,在grafana页面可以看到出现了OTel数据
选择其中一个调用进行跟踪,查看其火焰图
火焰图中增加了"A:通过 OTel 从应用内部采集的 Span"数据。
可参考官网理解对跟踪数据的解析。