Kubernetes网络

kube-proxy

我们知道,Kubernetes中Pod的生命是短暂了,它随时可能被终止。即使使用了Deployment或者ReplicaSet保证Pod挂掉之后还会重启,但也没法保证重启后Pod的IP不变。从服务的高可用性与连续性的角度出发,我们不可能把Pod的IP直接暴露成service端口。因此我们需要一个更加可靠的“前端”去代理Pod,这就是k8s中的Service。引用官方文档的定义就是:

Service 定义了这样一种抽象:逻辑上的一组 Pod,一种可以访问它们的策略 —— 通常称为微服务。 这一组 Pod 能够被 Service 访问到。

也可以说,Service作为“前端”提供稳定的服务端口,Pod作为“后端”提供服务实现。Service会监控自己组内的Pod的运行状态,剔除终止的Pod,添加新增的Pod。配合k8s的服务发现机制,我们再也不用担心IP改变,Pod终止等问题了。kube-proxy则是实现Service的关键组件,到目前为止共有3种实现模式:userspaceiptables 或者 IPVS。其中userspace 模式非常陈旧、缓慢,已经不推荐使用。

IP Tables模式

iptables 是一个 Linux 内核功能,是一个高效的防火墙,并提供了大量的数据包处理和过滤方面的能力。它可以在核心数据包处理管线上用 Hook 挂接一系列的规则。在K8S中,kube-proxy 会把请求的代理转发规则全部写入iptable中,砍掉了kube-proxy转发的部分,整个过程发生在内核空间,提高了转发性能,但是iptable的规则是基于链表实现的,规则数量随着Service数量的增加线性增加,查找时间复杂度为O(n),也就是说,当Service数量到达一定量级时,CPU消耗和延迟将显著增加。

IP VS模式

IPVS 是一个用于负载均衡的 Linux 内核功能。IPVS 模式下,kube-proxy 使用 IPVS 负载均衡代替了 iptable。IPVS 的设计就是用来为大量服务进行负载均衡的,它有一套优化过的 API,使用优化的查找算法,而不是简单的从列表中查找规则。这样一来,kube-proxy 在 IPVS 模式下,其连接过程的复杂度为 O(1)。换句话说,多数情况下,他的连接处理效率是和集群规模无关的。另外作为一个独立的负载均衡器,IPVS 包含了多种不同的负载均衡算法,例如轮询、最短期望延迟、最少连接以及各种哈希方法等。而 iptables 就只有一种随机平等的选择算法。IPVS 的一个潜在缺点就是,IPVS 处理数据包的路径和通常情况下 iptables 过滤器的路径是不同的。

通过下图,可以简单的看出Client pod 、kube proxy 、Pod之间的关系。Service的虚拟Ip会写到ip tables/ip vs中,被转发到真正的Pod地址。

image.png

IP Tables & IP VS 网络扭转


image.png

流程简述如下:

  1. kube-proxy DNAT + SNAT 用自己的 IP 替换源 IP ,用 Pod IP 替换掉目的 IP
  2. 数据包转发到目标 Pod
  3. Pod 将 Ingress Node 视为源,并作出响应
  4. 源 / 目的地址在 Ingress Node 替换为客户端地址(目的) ,服务地址(Ingress Node)

性能对比

image.png

image.png

总结下IPVS & IPTables

1.在小规模的集群中,两者在CPU和响应时间上,差别不大,无论是keep alive 还是non keep alive 。

2.在大规模集群中,两者会慢慢在响应时间以及CPU上都会出现区别,不过在使用keep alive的情况下,区别还是主要来源于CPU的使用。

3.ipvs 基于散列表,复杂度 O(1),iptables 基于链表,复杂度 O(n)

4.ipvs 支持多种负载均衡调度算法;iptables 只有由 statistic 模块的 DNAT 支持概率轮询。

PS:要注意,在微服务的情况下,调用链会非常长,两者影响效果会更显著一些。

eBPF

什么是eBPF?

Linux内核一直是实现监视/可观察性,网络和安全性的理想场所。不幸的是,这通常是不切实际的,因为它需要更改内核源代码或加载内核模块,并导致彼此堆叠的抽象层。 eBPF是一项革命性的技术,可以在Linux内核中运行沙盒程序,而无需更改内核源代码或加载内核模块。通过使Linux内核可编程,基础架构软件可以利用现有的层,从而使它们更加智能和功能丰富,而无需继续为系统增加额外的复杂性层。

eBPF导致了网络,安全性,应用程序配置/跟踪和性能故障排除等领域的新一代工具的开发,这些工具不再依赖现有的内核功能,而是在不影响执行效率或安全性的情况下主动重新编程运行时行为。对于云原生领域,Cilium 已经使用eBPF 实现了无kube-proxy的容器网络。利用eBPF解决iptables带来的性能问题。

通过的 eBPF 实现,可以保留原始源 IP,并且可以选择执行直接服务器返回 (DSR)。即返回流量可以选择最优路径,而无需通过原始入口节点环回,如下图:


image.png

简述流程如下:

  1. BPF program 将数据发送给 K8s service; 做负载均衡决策并将数据包发送给目的 pod 节点
  2. BPF program 程序将 DNAT 转换成 Pod 的IP
  3. Pod 看到客户端真正的 IP
  4. Pod 做出响应; BPF 反向 DNAT
  5. 如果网络准许,数据包直接返回。否则将通过 Ingress Node (ingress controller Pod 所在服务器)

性能

网络吞吐

测试环境:两台物理节点,一个发包,一个收包,收到的包做 Service loadbalancing 转发给后端 Pods。


image.png

可以看出:

  1. Cilium XDP eBPF 模式能处理接收到的全部 10Mpps(packets per second)。
  2. Cilium tc eBPF 模式能处理 3.5Mpps。
  3. kube-proxy iptables 只能处理 2.3Mpps,因为它的 hook 点在收发包路径上更后面的位置。
  4. kube-proxy ipvs 模式这里表现更差,它相比 iptables 的优势要在 backend 数量很多的时候才能体现出来

CPU 利用率

测试生成了 1Mpps、2Mpps 和 4Mpps 流量,空闲 CPU 占比(可以被应用使用的 CPU)结果如下:


image.png

结论与上面吞吐类似。

  • XDP 性能最好,是因为 XDP BPF 在驱动层执行,不需要将包 push 到内核协议栈
  • kube-proxy 不管是 iptables 还是 ipvs 模式,都在处理软中断(softirq)上消耗了大量 CPU

eBPF简化服务网格

首先看下Service Mesh

image.png

这是一张经典的service mesh图,在eBPF之前,kubernetes服务网格解决方案是要求我们在每一个应用pod上添加一个代理Sidecar容器,如:Envoy/Linkerd-proxy。

:即使在一个非常小的环境中,比如说有20个服务,每个服务运行5个pod,分在3个节点上,你也有100个代理容器。无论代理的实现多么小和有效,这种纯粹的重复都会浪费资源。每个代理使用的内存与它需要能够通信的服务数量有关。

问题:

为什么我们需要所有这些 sidecar?这种模式允许代理容器与 pod 中的应用容器共享一个网络命名空间。网络命名空间是 Linux 内核的结构,它允许容器和 pod 拥有自己独立的网络堆栈,将容器化的应用程序相互隔离。这使得应用之间互不相干,这就是为什么你可以让尽可能多的 pod 在 80 端口上运行一个 web 应用 —— 网络命名空间意味着它们各自拥有自己的 80 端口。代理必须共享相同的网络命名空间,这样它就可以拦截和处理进出应用容器的流量。

eBPF的sidecar less proxy model

基于eBPF的Cilium项目,最近将这种“无 sidecar”模式带到了服务网格的世界。除了传统的 sidecar 模型,Cilium 还支持每个节点使用一个 Envoy 代理实例运行服务网格的数据平面。使用上面的例子,这就把代理实例的数量从 100 个减少到只有 3 个

image.png

支持eBPF的网络允许数据包走捷径,绕过内核部分网络对战,这可以使kubernetes网络的性能得到更加显著的改善,如下图:


image.png

在服务网格的情况,代理在传统网络中作为sidecar运行,数据包到达应用程序的路径相当曲折:入栈数据包必须穿越主机TPC/IP栈,通过虚拟以太网连接到达pod的网络命名空间。从那里,数据包必须穿过pod的网络对战到达代理,代理讲数据包通过回环接口转发到应用程序,考虑到流量必须在连接的两端流经代理,于非服务网格流量相比,这将导致延迟的显著增加。

而基于eBPF的kubernetes CNI实现,如Cilium,可以使用eBPF程序,明智的勾住内核中的特定点,沿着更加直接的路线重定向数据包。因为Cilium知道所有的kubernetes断点和服务的身份。当数据包到达主机时,Cilium 可以将其直接分配到它所要去的代理或 Pod 端点。

总结

通过以上的内容,我想大家对kube-proxy和基于eBPF的CNI插件Cilium已经有了一些了解。可以看到在云原生领域,Cilium 已经使用eBPF 实现了无kube-proxy的容器网络。利用eBPF解决iptables带来的性能问题。另外以上也只是介绍了eBPF的网络方面,其实eBPF在跟踪、安全、负载均衡、故障分析等领域都是eBPF的主战场,而且还有更多更多的可能性正在被发掘。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,752评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,100评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,244评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,099评论 1 286
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,210评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,307评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,346评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,133评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,546评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,849评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,019评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,702评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,331评论 3 319
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,030评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,260评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,871评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,898评论 2 351

推荐阅读更多精彩内容