Cni terway-ENI独占模式源码详解

Terway

ENI独占模式

源码分析

func podNetworkType(daemonMode string, pod *corev1.Pod) string {
    switch daemonMode {
    case daemon.ModeENIMultiIP:
        return daemon.PodNetworkTypeENIMultiIP
    case daemon.ModeVPC:
        podAnnotation := pod.GetAnnotations()
        useENI := false
        if needEni, ok := podAnnotation[podNeedEni]; ok && (needEni != "" && needEni != ConditionFalse && needEni != "0") {
            useENI = true
        }

        for _, c := range pod.Spec.Containers {
            if _, ok := c.Resources.Requests[deviceplugin.ENIResName]; ok {
                useENI = true
                break
            }
        }

        if useENI {
            return daemon.PodNetworkTypeVPCENI
        }
        return daemon.PodNetworkTypeVPCIP
    case daemon.ModeENIOnly:
        return daemon.PodNetworkTypeVPCENI
    }

}

ENI独占模式时,对应的POD网络模式是VPC-ENI,此时的网络资源请求类型就不一样了

switch pod.PodNetworkType {

    case daemon.PodNetworkTypeVPCENI:
        reply.IPType = rpc.IPType_TypeVPCENI

        else {
            req := &eni.LocalIPRequest{}

            resourceRequests = append(resourceRequests, req)
        }

    }

对于VPC-ENI类型,可以看到此时的网络资源请求类型是LocalIPRequest

func (l *Local) Allocate(ctx context.Context, cni *daemon.CNI, request ResourceRequest) (chan *AllocResp, []Trace) {
    
    expectV4 := 0
    expectV6 := 0

    if l.enableIPv4 {
        ipv4 := l.ipv4.PeekAvailable(cni.PodID, lo.IPv4)
        if ipv4 == nil && len(l.ipv4)+l.allocatingV4 >= l.cap {
            return nil, []Trace{{Condition: Full}}
        } else if ipv4 == nil {
            expectV4 = 1
        }
    }

    l.allocatingV4 += expectV4

    l.cond.Broadcast()

    respCh := make(chan *AllocResp)

    go l.allocWorker(ctx, cni, lo, respCh, func() {
            ...
    })

    return respCh, nil
}

LocalIPRequest这种类型分配IP的流程相对复杂一点,这里它会维护一个IP可用集合,分配IP的时候就是遍历这个集合,从中获取可用的IP

所谓可用的IP就是集合中还没绑定POD的那些IP

func (s Set) PeekAvailable(podID string, prefer netip.Addr) *IP {
    
    for _, v := range s {
        if  v.status == ipStatusValid  && v.podID == ""{
            return v
        }
    }
    return nil
}

如果集合中没有可用IP,它会通过信号量通知其它携程帮他分配IP,然后自己等待IP分配好了之后,再遍历集合去获取可用的IP

func (l *Local) allocWorker(ctx context.Context, cni *daemon.CNI, request *LocalIPRequest, respCh chan *AllocResp, onErrLocked func()) {

    for {
        resp := &AllocResp{}

        var ip types.IPSet2
        if l.enableIPv4 {
            ipv4 = l.ipv4.PeekAvailable(cni.PodID, request.IPv4)
            if ipv4 == nil {
                l.cond.Wait()
                continue
            }
            ip.IPv4 = ipv4.ip
        }

        return
    }
}

这里没有可用IP时它会通过l.cond.Broadcast()去唤醒携程帮它分配IP,再其它携程帮它分配好IP之前它用过l.cond.Wait()将自己挂起,等待其它携程唤醒自己

可见真正干活的是另外的携程

func (l *Local) factoryAllocWorker(ctx context.Context) {
    l.cond.L.Lock()

    log := logf.FromContext(ctx)
    for {

        if l.allocatingV4 <= 0 && l.allocatingV6 <= 0 {
            l.cond.Wait()
            continue
        }

        // wait a small period
        l.cond.L.Unlock()
        time.Sleep(300 * time.Millisecond)
        l.cond.L.Lock()

        if l.eni == nil {
            // create eni
            v4Count := min(l.batchSize, max(l.allocatingV4, 1))
            v6Count := min(l.batchSize, l.allocatingV6)

            l.status = statusCreating
            l.cond.L.Unlock()

            err := l.rateLimitEni.Wait(ctx)
            
            eni, ipv4Set, ipv6Set, err := l.factory.CreateNetworkInterface(v4Count, v6Count, l.eniType)
            
            l.cond.L.Lock()

            l.eni = eni

            l.allocatingV4 -= v4Count
            l.allocatingV6 -= v6Count

            l.allocatingV4 = max(l.allocatingV4, 0)
            l.allocatingV6 = max(l.allocatingV6, 0)

            primary, err := netip.ParseAddr(eni.PrimaryIP.IPv4.String())
            if err == nil {
                for _, v := range ipv4Set {
                    l.ipv4.Add(NewValidIP(v, netip.MustParseAddr(v.String()) == primary))
                }
            }

            l.status = statusInUse
        } 

        l.cond.Broadcast()
    }
}

这个携程就是真正分配IP的了,再不需要分配IP的时候,即l.allocatingV4 <= 0,它会一直挂起,等待被需要分配IP的携程唤醒

上述有了分配IP的需求进来了,它就会被唤醒干活了

func (a *Aliyun) CreateNetworkInterface(ipv4, ipv6 int, eniType string) (*daemon.ENI, []netip.Addr, []netip.Addr, error) {
    ctx, cancel := context.WithTimeout(a.ctx, time.Second*60)
    defer cancel()

    // 1. create eni
    var eni *client.NetworkInterface
    var vswID string

    err := wait.ExponentialBackoffWithContext(a.ctx, backoff.Backoff(backoff.ENICreate), func(ctx context.Context) (bool, error) {
        vsw, innerErr := a.vsw.GetOne(ctx, a.openAPI, a.zoneID, a.vSwitchOptions)
        
        eni, innerErr = a.openAPI.CreateNetworkInterface(ctx, trunk, vswID, a.securityGroupIDs, a.resourceGroupID, ipv4, ipv6, a.eniTags)
        
        return true, nil
    })

    r := &daemon.ENI{
        ID:        eni.NetworkInterfaceID,
        MAC:       eni.MacAddress,
        VSwitchID: eni.VSwitchID,
        Type:      eni.Type,
    }

    r.PrimaryIP.SetIP(eni.PrivateIPAddress)

    v4Set, err := func() ([]netip.Addr, error) {
        var ips []netip.Addr
        for _, v := range eni.PrivateIPSets {
            addr, err := netip.ParseAddr(v.PrivateIpAddress)
            ips = append(ips, addr)
        }
        return ips, nil
    }()


    // 2. attach eni
    err = a.openAPI.AttachNetworkInterface(ctx, eni.NetworkInterfaceID, a.instanceID, "")

    // 3. wait metadata ready & update cidr
    err = validateIPInMetadata(ctx, v4Set, func() []netip.Addr {
        exists, err := metadata.GetIPv4ByMac(r.MAC)
        
        return exists
    })


    prefix, err := metadata.GetVSwitchCIDR(eni.MacAddress)
    r.VSwitchCIDR.SetIPNet(prefix.String())

    gw, err := metadata.GetENIGatewayAddr(eni.MacAddress)
    r.GatewayIP.SetIP(gw.String())


    return r, v4Set, v6Set, nil
}

这里主要就是和阿里云 云主机相关的一些交互了

  • 首先查询vswitch,vswitch id 就是当前云主机所在的vswitch,可以通过metadata获取到
curl http://100.100.100.200/latest/meta-data/vswitch-id

vsw-8vbddxzcxxxxxxp1evxd6r
  • 然后通过ECS客户端开通ENI,关联的vswitch就是上面的这个

  • 然后将ENI绑定到当前云主机,当前云主机有一个唯一的实例ID,也是通过metadata获取

curl http://100.100.100.200/latest/meta-data/instance-id

i-8vb4cxxxxxxxxxxxxxzahaxyv
  • 然后确保这个ENI已经绑定到了当前云主机上,并且IP也分配到了,也是通过metadata获取
curl http://100.100.100.200/latest/meta-data/network/interfaces/macs/00:11:22:33:44:55/private-ipv4s

192.168.128.15
  • 然后查询ENI所属的vswitch的CIDR,也是通过metadata获取
curl http://100.100.100.200/latest/meta-data/network/interfaces/macs/00:11:22:33:44:55/vswitch-cidr-block

192.168.128.0/24
  • 然后查询ENI的网关,也是通过metadata获取
curl http://100.100.100.200/latest/meta-data/network/interfaces/macs/00:11:22:33:44:55/gateway

192.168.128.253

上述ENI准备好了之后,就会把对应的IP地址加入到集合里,然后唤醒需要分配IP的携程即可

有了IP之后,就会转换为网络配置

func (l *LocalIPResource) ToRPC() []*rpc.NetConf {
    cfg := &rpc.NetConf{
        BasicInfo: &rpc.BasicInfo{
            PodIP:       l.IP.ToRPC(),
            PodCIDR:     l.ENI.VSwitchCIDR.ToRPC(),
            GatewayIP:   l.ENI.GatewayIP.ToRPC(),
            ServiceCIDR: nil,
        },
        ENIInfo: &rpc.ENIInfo{
            MAC:       l.ENI.MAC,
            Trunk:     false,
            Vid:       0,
            GatewayIP: l.ENI.GatewayIP.ToRPC(),
        },
        Pod:          nil,
        IfName:       "",
        ExtraRoutes:  nil,
        DefaultRoute: true,
    }

    return []*rpc.NetConf{cfg}
}

然后补充Service CIDR,获取方式和前面VPV模式是一样的

c.BasicInfo.ServiceCIDR = n.k8s.GetServiceCIDR().ToRPC()

有了网络配置后,就可以开始配置网卡了,由于此时的ipType 对应的是VPC-ENI,所以对应的网卡配置类型为独占ENI

func getDatePath(ipType rpc.IPType, vlanStripType types.VlanStripType, trunk bool) types.DataPath {
    switch ipType {
    case rpc.IPType_TypeVPCENI:
        return types.ExclusiveENI
    }
}

因为已经分配好了IP地址,所以这里就不需要IPAM插件了,直接使用分配好的IP地址即可

switch setupCfg.DP {
        case types.ExclusiveENI:
            
            if setupCfg.ContainerIfName == args.IfName {
                containerIPNet = setupCfg.ContainerIPNet
                gatewayIPSet = setupCfg.GatewayIP
            }

            err = datapath.NewExclusiveENIDriver().Setup(setupCfg, cniNetns)

最后再看下网卡配置过程

func (r *ExclusiveENI) Setup(cfg *types.SetupConfig, netNS ns.NetNS) error {
    // 1. move link in
    nicLink, err := netlink.LinkByIndex(cfg.ENIIndex)
    
    hostNetNS, err := ns.GetCurrentNS()
    
    defer hostNetNS.Close()

    err = utils.LinkSetNsFd(nicLink, netNS)

    // 2. setup addr and default route
    err = netNS.Do(func(netNS ns.NetNS) error {
        // 2.1 setup addr
        contLink, err := netlink.LinkByName(nicLink.Attrs().Name)

        contCfg := generateContCfgForExclusiveENI(cfg, contLink)
        err = nic.Setup(contLink, contCfg)

        // for now we only create slave link for eth0
        if !cfg.DisableCreatePeer && cfg.ContainerIfName == "eth0" {
            err = veth.Setup(&veth.Veth{
                IfName:   cfg.HostVETHName, // name for host ns side
                PeerName: defaultVethForENI,
            }, hostNetNS)

            var mac net.HardwareAddr
            err = hostNetNS.Do(func(netNS ns.NetNS) error {
                hostPeer, innerErr := netlink.LinkByName(cfg.HostVETHName)
                mac = hostPeer.Attrs().HardwareAddr
                return innerErr
            })

            veth1, err := netlink.LinkByName(defaultVethForENI)

            veth1Cfg := generateVeth1Cfg(cfg, veth1, mac)
            return nic.Setup(veth1, veth1Cfg)
        }
        return nil
    })


    hostPeer, err := netlink.LinkByName(cfg.HostVETHName)

    hostPeerCfg := generateHostSlaveCfg(cfg, hostPeer)
    err = nic.Setup(hostPeer, hostPeerCfg)

    return nil
}

容器内的网卡配置时, 首先直接将ENI设备移到容器命名空间内,可见这种模式下容器是直接分配的ENI网卡

然后配置容器ENI网卡名称、设置ENI网卡的IP地址、默认路由

func generateContCfgForExclusiveENI(cfg *types.SetupConfig, link netlink.Link) *nic.Conf {
    var addrs []*netlink.Addr
    var routes []*netlink.Route
    var rules []*netlink.Rule
    var sysctl map[string][]string

        else {
        addrs = utils.NewIPNetToMaxMask(cfg.ContainerIPNet)
    }

    if cfg.ContainerIPNet.IPv4 != nil {
        // add default route
        if cfg.DefaultRoute {
            routes = append(routes, &netlink.Route{
                LinkIndex: link.Attrs().Index,
                Scope:     netlink.SCOPE_UNIVERSE,
                Dst:       "0.0.0.0/0",
                Gw:        cfg.GatewayIP.IPv4,
                Flags:     int(netlink.FLAG_ONLINK),
            })
        }
    }

    contCfg := &nic.Conf{
        IfName: cfg.ContainerIfName,
        MTU:    cfg.MTU,
        Addrs:  addrs,
        Routes: routes,
        Rules:  rules,
        SysCtl: sysctl,
    }
    return contCfg
}

设置ENI网卡名称为eth0、然后设置的IP地址就是ENI的IP地址、然后添加默认路由,注意这里默认路由的网关设备就是ENI的网关地址

default via  192.168.128.253  dev eth0 onlink

如此,ENI网卡就配置好了,但是还需要一个veth网卡

err = veth.Setup(&veth.Veth{
                IfName:   cfg.HostVETHName, // name for host ns side
                PeerName: "veth1",
            }, hostNetNS)

veth网卡在容器内的网卡名称就是veth1,在宿主机上的名称就是calixxxxxxxxxxx

然后配置容器内veth网卡的名称、配置veth网卡的IP地址、配置veth网卡的默认路由、配置veth网卡的静态ARP

func generateVeth1Cfg(cfg *types.SetupConfig, link netlink.Link, peerMAC net.HardwareAddr) *nic.Conf {
    var routes []*netlink.Route
    var neighs []*netlink.Neigh
    var sysctl map[string][]string

    if cfg.ContainerIPNet.IPv4 != nil {
        // 169.254.1.1 dev veth1
        routes = append(routes, &netlink.Route{
            LinkIndex: link.Attrs().Index,
            Scope:     netlink.SCOPE_LINK,
            Dst:       "169.254.1.1",
        })

        if cfg.ServiceCIDR != nil && cfg.ServiceCIDR.IPv4 != nil {
            routes = append(routes, &netlink.Route{
                LinkIndex: link.Attrs().Index,
                Dst:       "10.96.0.0/12",
                Gw:        "169.254.1.1/32",
                Flags:     int(netlink.FLAG_ONLINK),
            })
        }
        neighs = append(neighs, &netlink.Neigh{
            LinkIndex:    link.Attrs().Index,
            IP:           169.254.1.1,
            HardwareAddr: peerMAC,
            State:        netlink.NUD_PERMANENT,
        })
    }

    contCfg := &nic.Conf{
        IfName: "veth1",
        MTU:    cfg.MTU,
        Addrs:  "192.168.128.15/32",
        Routes: routes,
        Neighs: neighs,
        SysCtl: sysctl,
    }
    return contCfg
}

设置容器内veth网卡的名称为veth1

veth1网卡的IP地址仍为ENI的IP地址

然后是veth1默认路由

169.254.1.1 dev veth1 scope link
10.96.0.0/12 via 169.254.1.1 dev veth1 onlink

然后是静态ARP,对应的MAC地址就是宿主机上calixxxxxxxxxx设备的MAC地址

? (169.254.1.1) at da:44:55:66:77:88 [ether] on eth0

最后是宿主机上的veth网卡配置

func generateHostSlaveCfg(cfg *types.SetupConfig, link netlink.Link) *nic.Conf {
    var addrs []*netlink.Addr
    var routes []*netlink.Route

    if cfg.ContainerIPNet.IPv4 != nil {
        addrs = append(addrs, &netlink.Addr{
            IPNet: "169.254.1.1/32",
        })

        // add route to container
        routes = append(routes, &netlink.Route{
            LinkIndex: link.Attrs().Index,
            Scope:     netlink.SCOPE_LINK,
            Dst:       "192.168.128.15/32",
        })
    }
    contCfg := &nic.Conf{
        IfName: cfg.HostVETHName,
        MTU:    cfg.MTU,
        Addrs:  addrs,
        Routes: routes,
        SysCtl: sysctl,
    }

    return contCfg
}

首先设置宿主机上的veth网卡名称为calixxxxxxxxxxx

设置calixxxxxxxxxxxxxx网卡IP地址为169.254.1.1/32

设置calixxxxxxxxxxxxxx网卡的默认路由

192.168.128.15/32 dev calixxxxxxxxxxxxxx scope link

可以看到这种模式下,容器内是有两个网卡的,其中ENI网卡直连的是VPC;另外的veth网卡是处理Service请求的

参考

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,658评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,482评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,213评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,395评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,487评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,523评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,525评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,300评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,753评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,048评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,223评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,905评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,541评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,168评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,417评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,094评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,088评论 2 352

推荐阅读更多精彩内容

  • ENIIP模式 ENI共享模式,单个ENI可以配置多个辅助IP 源码解析 ENI多IP模式下,对应的POD网络模式...
    Teddy_b阅读 102评论 0 0
  • Terway VPC模式 从参考中Terway的设计文档中可以看到他的网络模型 源码解析 这里先调用daemon获...
    Teddy_b阅读 74评论 0 0
  • 从网络模型说起 容器的网络技术日新月异,经过多年发展,业界逐渐聚焦到 Docker 的 CNM(Container...
    程序员札记阅读 1,631评论 0 5
  • Open vSwitch介绍 在过去,数据中心的服务器是直接连在硬件交换机上,后来VMware实现了服务器虚拟化技...
    杀破魂阅读 24,811评论 1 18
  • 背景 随着公司业务的发展,底层容器环境也需要在各个区域部署,实现多云架构, 使用各个云厂商提供的CNI插件是k8s...
    AI乔治阅读 1,856评论 0 6