深入分析kubelet(7)—— 选取GPU挂载

深入分析kubelet(7)—— 选取GPU挂载

深入浅出kubernetes之device-plugins主要分析device-plugin资源上报部分,本来着重分析下分配过程。

device-plugin

kubelet过于复杂,所以通过device-plugin反推

interface

kubernetes\pkg\kubelet\apis\deviceplugin\v1beta1\api.pb.go

type DevicePluginServer interface {
   GetDevicePluginOptions(context.Context, *Empty) (*DevicePluginOptions, error)

   ListAndWatch(*Empty, DevicePlugin_ListAndWatchServer) error

   Allocate(context.Context, *AllocateRequest) (*AllocateResponse, error)

   PreStartContainer(context.Context, *PreStartContainerRequest) (*PreStartContainerResponse, error)
}

最重要的是ListAndWatch()/Allocate(),因为另外两个方法直接返回结果,没有任何逻辑

ListAndWatch

k8s-device-plugin\server.go

func (m *NvidiaDevicePlugin) ListAndWatch(e *pluginapi.Empty, s pluginapi.DevicePlugin_ListAndWatchServer) error {
   s.Send(&pluginapi.ListAndWatchResponse{Devices: m.devs})

   for {
      select {
      case <-m.stop:
         return nil
      case d := <-m.health:
         d.Health = pluginapi.Unhealthy
         s.Send(&pluginapi.ListAndWatchResponse{Devices: m.devs})
      }
   }
}

老朋友了,list所有设备,并长连接http-steaming将变化发到客户端。

// E.g:
// struct Device {
//    ID: "GPU-fef8089b-4820-abfc-e83e-94318197576e",
//    State: "Healthy",
// }
type Device struct {
   ID string `protobuf:"bytes,1,opt,name=ID,json=iD,proto3" json:"ID,omitempty"`
   Health string `protobuf:"bytes,2,opt,name=health,proto3" json:"health,omitempty"`
}

目前设备信息只有设备号和健康状态,没办法扩展,所以也就不知道GPU拓扑=。=,所以说目前也就支持GPU数量。

Allocate

func (m *NvidiaDevicePlugin) Allocate(ctx context.Context, reqs *pluginapi.AllocateRequest) (*pluginapi.AllocateResponse, error) {
   devs := m.devs
   responses := pluginapi.AllocateResponse{}
   for _, req := range reqs.ContainerRequests {
      response := pluginapi.ContainerAllocateResponse{
         Envs: map[string]string{
            "NVIDIA_VISIBLE_DEVICES": strings.Join(req.DevicesIDs, ","),
         },
      }

      for _, id := range req.DevicesIDs {
         if !deviceExists(devs, id) {
            return nil, fmt.Errorf("invalid allocation request: unknown device: %s", id)
         }
      }

      responses.ContainerResponses = append(responses.ContainerResponses, &response)
   }

   return &responses, nil
}

Allocate做了两件事情,返回NVIDIA_VISIBLE_DEVICES环境变量,以及检查设备是否存在。

Note:

  1. 这里其实就已经告诉了我们分配逻辑,即kubelet根据limit选择挂载具体的GPU卡,然后将设备号发送给device-plugin,得到env;
  2. 以后想在调度器里面根据GPU拓扑选择GPU卡,是很难实现的,并且调度器本身逻辑只创建bind,赋值node name,要想再把设备号加进去比较困难。

kubelet

从上面我们可以知道最重要的就是Allocate方法,所以我们首先去找kubelet中Allocate方法的调用。

kubernetes\pkg\kubelet\cm\devicemanager\endpoint.go

type endpoint interface {
   run()
   stop()
   allocate(devs []string) (*pluginapi.AllocateResponse, error)
   preStartContainer(devs []string) (*pluginapi.PreStartContainerResponse, error)
   callback(resourceName string, devices []pluginapi.Device)
   isStopped() bool
   stopGracePeriodExpired() bool
}

其中最重要的就是run和allocate,分别会调用device-plugin的ListAndWatch()和Allocate()。

run

func (e *endpointImpl) run() {
   stream, err := e.client.ListAndWatch(context.Background(), &pluginapi.Empty{})

   for {
      response, err := stream.Recv()
      devs := response.Devices
      var newDevs []pluginapi.Device
      for _, d := range devs {
         newDevs = append(newDevs, *d)
      }

      e.callback(e.resourceName, newDevs)
   }
}

调用ListAndWatch,再调用callback处理设备

kubernetes\pkg\kubelet\cm\devicemanager\manager.go

func (m *ManagerImpl) genericDeviceUpdateCallback(resourceName string, devices []pluginapi.Device) {
   m.mutex.Lock()
   m.healthyDevices[resourceName] = sets.NewString()
   m.unhealthyDevices[resourceName] = sets.NewString()
   for _, dev := range devices {
      if dev.Health == pluginapi.Healthy {
         m.healthyDevices[resourceName].Insert(dev.ID)
      } else {
         m.unhealthyDevices[resourceName].Insert(dev.ID)
      }
   }
   m.mutex.Unlock()
   m.writeCheckpoint()
}

这里就看到在kubelet.ContainerManager.deviceManager中保存了设备ID,数据结构是map[string]sets.String

allocate

kubernetes\pkg\kubelet\cm\devicemanager\endpoint.go

func (e *endpointImpl) allocate(devs []string) (*pluginapi.AllocateResponse, error) {
   return e.client.Allocate(context.Background(), &pluginapi.AllocateRequest{
      ContainerRequests: []*pluginapi.ContainerAllocateRequest{
         {DevicesIDs: devs},
      },
   })
}

这里就直接发了gRPC请求,看下函数调用处是怎么选择设备ID的。

kubernetes\pkg\kubelet\cm\devicemanager\manager.go

func (m *ManagerImpl) allocateContainerResources(pod *v1.Pod, container *v1.Container, devicesToReuse map[string]sets.String) error {
   podUID := string(pod.UID)
   contName := container.Name
   allocatedDevicesUpdated := false
    
   for k, v := range container.Resources.Limits {
      resource := string(k)
      needed := int(v.Value())

      allocDevices, err := m.devicesToAllocate(podUID, contName, resource, needed, devicesToReuse[resource])

      startRPCTime := time.Now()
      m.mutex.Lock()
      e, ok := m.endpoints[resource]
      m.mutex.Unlock()

      devs := allocDevices.UnsortedList()
      resp, err := e.allocate(devs)
      
      // Update internal cached podDevices state.
      m.mutex.Lock()
      m.podDevices.insert(podUID, contName, resource, allocDevices, resp.ContainerResponses[0])
      m.mutex.Unlock()
   }

   // Checkpoints device to container allocation information.
   return m.writeCheckpoint()
}

  1. 通过devicesToAllocate方法获得分配的设备ID
  2. 调用allocate方法,获取响应env
  3. 更新devicemanager.podDevices数据
func (m *ManagerImpl) devicesToAllocate(podUID, contName, resource string, required int, reusableDevices sets.String) (sets.String, error) {
   m.mutex.Lock()
   defer m.mutex.Unlock()
   needed := required
   devices = sets.NewString()
   
   devicesInUse := m.allocatedDevices[resource]
   available := m.healthyDevices[resource].Difference(devicesInUse)

   allocated := available.UnsortedList()[:needed]

   for _, device := range allocated {
      m.allocatedDevices[resource].Insert(device)
      devices.Insert(device)
   }
   return devices, nil
}

分配资源逻辑

  1. 获取容器已分配资源
  2. 从cache中获取已使用的设备
  3. 比较全部设备与已用设备,得到可用设备
  4. 随机从可用设备选出设备ID
  5. 更新已用设备cache
  6. 返回取得的设备ID

这里就一切真相大白了,kubelet是随机去GPU挂载的。

保存资源分配情况

kubernetes\pkg\kubelet\cm\devicemanager\pod_devices.go

func (pdev podDevices) insert(podUID, contName, resource string, devices sets.String, resp *pluginapi.ContainerAllocateResponse) {
   if _, podExists := pdev[podUID]; !podExists {
      pdev[podUID] = make(containerDevices)
   }
   if _, contExists := pdev[podUID][contName]; !contExists {
      pdev[podUID][contName] = make(resourceAllocateInfo)
   }
   pdev[podUID][contName][resource] = deviceAllocateInfo{
      deviceIds: devices,
      allocResp: resp,
   }
}

这里就保存了每个Pod下每个contrainer的每种资源的使用情况。

// Returns combined container runtime settings to consume the container's allocated devices.
func (pdev podDevices) deviceRunContainerOptions(podUID, contName string) *DeviceRunContainerOptions {}

deviceRunContainerOptions方法返回了创建容器所需的设备信息配置参数。

ps. 一般来说信息不会存两份,所以资源分配情况应该只存在于devicemanager中;只有在需要的时候,返回对应的配置文件就好。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,233评论 6 495
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,357评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,831评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,313评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,417评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,470评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,482评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,265评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,708评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,997评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,176评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,827评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,503评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,150评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,391评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,034评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,063评论 2 352

推荐阅读更多精彩内容

  • “唔,你怎么这么好的?”“我们林家的男人个个都很痴情,像我妈就有一个痴情的老公和一个痴情的儿子。”“她很幸福...
    上帝的宠儿媳阅读 344评论 5 5
  • 背景: 根据规划,读书并分享读后感,第三篇。 主要内容: 说清楚两个事情 1、我为什么要思考“我为什么活着”; 2...
    長游阅读 1,428评论 4 5
  • 今天考试我懵逼了,考完我发了条说说:“没想到我会败在数学计算上,果然数学不好是要伴随一生的,我已经不想看见jw了。...
    cuckoo酱阅读 574评论 0 2
  • 晚上在帮同学按摩颈部的时候,发现他的颈部有淤堵,开始帮她按的时候她说疼,不要按了。我就想着不通的地方肯定会有些疼...
    井田婷婷阅读 192评论 2 4