Kubernetes的Pod调度算法

Kubernetes的Pod调度算法

在本文档中,解释了如何为Pod选择节点的算法。在选择Pod的目标节点之前有两个步骤。第一步是过滤所有节点(预选),第二步是对剩余节点进行排名(优选),以找到最适合Pod的节点。

预选

预选的目的是过滤掉不满足Pod某些要求的节点。例如,如果节点上的空闲资源(通过容量减去已经在节点上运行的所有Pod的资源请求的总和来测量)小于Pod的所需资源,则不应在优选阶段考虑该节点打分排名,就被过滤掉了。目前,有几个“预选策略”实现了不同的过滤策略

  • NoDiskConflict 检查pod请求的卷以及已挂载的卷存在冲突。如果这个主机已经挂载了卷,其它同样使用这个卷的Pod不能调度到这个主机上。目前支持的卷包括:AWS EBS,GCE PD,ISCSI和Ceph RBD。仅检查这些受支持类型的持久卷声明。直接添加到pod的持久卷不会被评估,也不受此策略的约束。
  • NoVolumeZoneConflict 检查给定的zone限制前提下,检查如果在此主机上部署Pod是否存在卷冲突。
  • PodFitsResources 检查可用资源(CPU和内存)是否满足Pod的要求。测量空闲资源是通过节点容量减去节点上所有Pod的请求总和。要了解有关Kubernetes中资源QoS的更多信息,请查看QoS提议
  • PodFitsHostPorts 检查Pod所需的任何HostPort是否已在节点上占用
  • HostName 筛选出除PodSpec的``NodeName字段中指定的节点之外的所有节点 简单来说就是检查主机名称是不是Pod指定的HostName`
  • MatchNodeSelector 检查节点的标签是否与Pod的nodeSelector字段中指定的标签匹配,并且从Kubernetes v1.2开始,也匹配nodeAffinityif present。有关两者的详细信息,请参见此处
  • MaxEBSVolumeCount 确保挂载的ElasticBlockStore卷的数量不超过最大值(默认情况下为39,因为Amazon建议最多40个,其中40个为根卷保留其中一个 - 请参阅Amazon的文档)。可以通过设置KUBE_MAX_PD_VOLS环境变量来控制最大值。
  • MaxGCEPDVolumeCount 确保挂载的GCE PersistentDisk卷的数量不超过最大值(默认情况下,16,这是GCE允许的最大值 - 请参阅GCE的文档)。可以通过设置KUBE_MAX_PD_VOLS环境变量来控制最大值。
  • CheckNodeMemoryPressure 检查是否可以在提示memory pressure的节点上安排pod。目前,BestEffort这种Qos等级的pod不能被调度到 memory pressure的节点上,因为它会被kubelet自动驱逐。
  • CheckNodeDiskPressure 检查是否可以在提示disk pressure节点上安排Pod。目前,Pod不会被调度在disk pressure`节点上,因为它会被kubelet自动驱逐。

上述预选的详细信息可以在pkg / scheduler / algorithm / predicates / predicates.go中找到。上面提到的所有策略可以组合使用以执行复杂的过滤策略。默认情况下,Kubernetes使用这些谓词中的一些,但不是全部。您可以在pkg / scheduler / algorithmprovider / defaults / defaults.go中查看默认使用的

优选

预选节点被认为适合托管Pod,并且通常存在多个节点。Kubernetes优先考虑这些节点,以找到Pod的“最佳”节点。优先级由一组优先级函数执行。对于每一个节点,优先级函数给出从0-10开始的分数,其中10代表“最优选”,0代表“最不优选”。每个优先级函数由正数加权,每个节点的最终得分通过将所有加权得分相加来计算。例如,假设有两个优先级的功能,priorityFunc1priorityFunc2与加权系数weight1weight2分别一些NodeA上的最后得分是:

finalScoreNodeA = (weight1 * priorityFunc1) + (weight2 * priorityFunc2)

在计算所有节点的分数之后,选择具有最高分数的节点作为Pod的主机。如果存在多个具有相同最高分数的节点,则选择其中的随机节点。

目前,Kubernetes调度程序提供了一些实用的优先级功能,包括:

  • LeastRequestedPriority:如果新的pod要分配给一个节点,这个节点的优先级就由节点空闲的那部分与总容量的比值(即(总容量-节点上pod的容量总和-新pod的容量)/总容量)来决定。CPU和内存的权重相等,比值最大的节点的得分最高。需要注意的是,这个优先级函数起到了按照资源消耗来跨节点分配pods的作用。计算公式如下:
score = cpu((capacity – sum(requested)) * 10 / capacity) + memory((capacity – sum(requested)) * 10 / capacity) / 2
  • BalancedResourceAllocation:尽量选择在部署Pod后各项资源更均衡的机器,计算公式如下:
score = 10 – abs(cpuFraction-memoryFraction)*10
  • SelectorSpreadPriority:对于属于同一个service、replication controller的Pod,尽量分散在不同的主机上。如果指定了区域,则会尽量把Pod分散在不同区域的不同主机上
  • CalculateAntiAffinityPriority:对于属于同一个service的Pod,尽量分散在不同的具有指定标签的主机上
  • ImageLocalityPriority:根据主机上是否已具备Pod运行的环境来打分。ImageLocalityPriority会判断主机上是否已存在Pod运行所需的镜像,根据已有镜像的大小返回一个0-10的打分。如果主机上不存在Pod所需的镜像,返回0;如果主机上存在部分所需镜像,则根据这些镜像的大小来决定分值,镜像越大,打分就越高。
  • NodeAffinityPriority:(Kubernetes v1.2)Kubernetes调度中的亲和性机制。Node Selectors(调度时将pod限定在指定节点上),支持多种操作符(In, NotIn, Exists, DoesNotExist, Gt, Lt),而不限于对节点labels的精确匹配。
    另外,Kubernetes支持两种类型的选择器:
    一种是“hard(requiredDuringSchedulingIgnoredDuringExecution)”选择器,它保证所选的主机必须满足所有Pod对主机的规则要求。这种选择器更像是之前的nodeselector,在nodeselector的基础上增加了更合适的表现语法。
    另一种是“soft(preferresDuringSchedulingIgnoredDuringExecution)”选择器,它作为对调度器的提示,调度器会尽量但不保证满足NodeSelector的所有要求。
    Kubernetes调度中的亲和性机制请看这里了解更多详情。

参考文档:

https://github.com/kubernetes/community/blob/master/contributors/devel/sig-scheduling/scheduler_algorithm.md

https://blog.csdn.net/WaltonWang/article/details/54604392

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,014评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,796评论 3 386
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,484评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,830评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,946评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,114评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,182评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,927评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,369评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,678评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,832评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,533评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,166评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,885评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,128评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,659评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,738评论 2 351

推荐阅读更多精彩内容

  • kubernets中负责pod调度的重要模块是kube-schduler。kube-scheduler就是调度安排...
    ywhu阅读 3,334评论 0 4
  • 1、基础架构 1.1 Master Master节点上面主要由四个模块组成:APIServer、scheduler...
    阿斯蒂芬2阅读 10,868评论 0 44
  • 一、 K8s 是什么? Kubernetes(k8s)是自动化容器操作的开源平台,这些操作包括部署,调度和节点集群...
    loveroot阅读 6,641评论 1 21
  • 其实对于过节除了可以偷懒之外,没有可期待的 最怕 过节时别人来一句 呀 你咋没有回家啊 对于多年的留守少女来说...
    胡爱琉阅读 184评论 0 0
  • 行者顺达 秋凉菊黄换夏芳 人忧心重无心赏 情牵中秋千里归 娘亲门口等儿郎
    行者顺达阅读 232评论 7 2