Docker容器的内核调优

在传统的虚拟机领域,通过调节一些系统参数来提供(高)系统性能是一种常规手段。例如,对于一个被频繁访问的服务器来说,可以通过设置 net.ipv4.ip_local_port_range = 1024 65000(默认32768 61000),来允许系统开放更多的端口。

本文今天讨论的重点不放在对 Linux内核调优的讨论上来,以下链接中关于传统领域内核调优的讨论较为细致,感兴趣的读者可以学习一下:http://colobu.com/2014/09/18/linux-tcpip-tuning/

本文主要通过对比 docker与 linux内核调优的不同,介绍下 docker容器的内核调优。

Docker内核调优与 Linux内核调优的不同

Docker允许在启动容器时指定 --sysctl参数来设置系统参数,通过这些参数来调整系统性能,下面重点说下其与 linux调整系统参数的不同之处。

总体来说,容器比 linux可调整项要少,容器的可调整参数需要满足3个条件:

1. 未被 docker限制

Docker通过一个 ValidateSysctl函数来限制 sysctl参数可以传入的项,源码如下:

// docker/opts/opts.go
func ValidateSysctl(val string) (string, error) {    validSysctlMap := map[string]bool{        "kernel.msgmax":          true,        "kernel.msgmnb":          true,        "kernel.msgmni":          true,       
 "kernel.sem":             true,       
 "kernel.shmall":          true,       
 "kernel.shmmax":          true,        "kernel.shmmni":          true,       "kernel.shm_rmid_forced": true,   
 }     
  validSysctlPrefixes := []string{ 
       "net.",
       "fs.mqueue.",   
 } 
...

也就是说,docker允许调整的只有上面列出的 kernel.xxx部分,以及以 net.和 fs.mqueue为前缀的部分,如果试图调整其他项,则会报 whitelist验证不通过错误:

root@hzwangxing01:~/tmp# docker run -it --sysctl kernel.acpi_video_flags=0 hub.c.163.com/public/debian:7.9 bash
invalid argument "kernel.acpi_video_flags=0" for --sysctl: sysctl'kernel.acpi_video_flags=0' is not whitelisted

2.容器中可以看见该配置项

并不是所有宿主机上可见的配置项,在容器中都是可见的,例如 net.core.rmem_max参数(定义内核用于所有类型的连接的最大接收缓冲大小):

root@hzwangxing01:~/tmp# sysctl -a | grep rmem_max
net.core.rmem_max = 212992
root@hzwangxing01:~/tmp# docker run hub.c.163.com/public/debian:7.9 sysctl -a | grep rmem_max
root@hzwangxing01:~/tmp#

之所以在容器中不可见,与 docker无关,应该是 kernel namespace的 issue。

3. 该配置项可以 namespace化

配置项无法 namespace化,指的是该配置项是全局的,无法为每个 namespace生成独立的配置。

一般来说,宿主机和容器是一对多的关系,一个无法 namespace化的配置项,调整之后会影响所有其他容器以及宿主机本身,这是我们无法接受的。

典型的例子就是由于容器共享内核的特性,导致了大多数跟 kernal相关的参数项都无法 namespace化。例如:

root@hzwangxing01:~/tmp# sysctl -a | grep pid_max
kernel.pid_max =32768
root@hzwangxing01:~/tmp# docker run -d --privileged --name test hub.c.163.com/public/debian:7.9
a43e89ee85d36e250e0886331e9d6213094f31260eb9e1539b83f0e9cfc91848
root@hzwangxing01:~/tmp# docker exec test sysctl -w kernel.pid_max=86723    
kernel.pid_max = 86723
root@hzwangxing01:~/tmp# sysctl -a | grep pid_max
kernel.pid_max = 86723

从上面的例子可以看出,如果在容器中设置 kernel的 pid_max属性,相应的,宿主机的对应属性也会被修改。

对限制条件组合的详细说明

根据上面列举的三个 docker设置参数的条件,简单的画一个图再展开说明下:

5.jpg

上图是一个简单的韦氏图:

  • dvn:满足3个条件的属性集,可以通过 --sysctl传入参数设置并达到预期效果

  • dv(只满足 d和 v,也即 d&&v&&!n):虽然别的条件满足,但无法被 namespace化的属性集,属于无法修复的,除非自己修改内核,打 patch(不推荐)

  • dn:在容器中不可见,无法通过 --sysctl设置,会报错相关文件找不到

    root@hzwangxing01:~/tmp# docker run -d --sysctl net.core.rmem_max=1024 hub.c.163.com/public/debian:7.9e2353339b7c9ef52a573d92c0136a20ab7373fc7e06345575cf5efe4cf10256a
    docker: Error response from daemon: invalid header field value "oci runtime error: container_linux.go:247: starting container process caused "process_linux.go:359: container init caused \"open /proc/sys/net/core/rmem_max: no such file or directory\""\n".

这类情况也是无法修复的。

  • vn:这一类是可以修复的,只需要去 docker源码中添加白名单项即可
  • d、v、n:鉴于无法同时满足“容器中可见”和“可 namespace化”两个条件,这三类也是不可修复的

补充说明

这里需要指出的一点是,可能有人会认为满足条件 d的是经过 docker验证的,同时支持 dvn的,很遗憾,并不是这样。

Docker明确限定的 kernel调节项以及 fs.mqueue前缀项确实是同时符合 dvn的,但是问题主要在于过于宽泛的 net前缀项,这里面就有一些表项不满足 vn,这里不再一一展开说明了。

Docker可配置项

由上面的论述可以得出一个结论,只有 dvn和 vn(需对 docker代码稍作调整)是可以配置的,所以,所有的可配置项包括 dvn+vn,也即 v&&n,其中:

  • v很容易获得,只需在一个运行中的容器使用 sysctl -a就可以看到所有可见配置项;
  • 在 v的基础上,找出可以 namespace化的配置项,方法其实在上面的示例中已经使用过了,这里再强调下:以 privileged权限启动一个容器(确保有权限在容器中设置配置项),在容器中使用 sysctl -w设置某个配置项为不同值,并在宿主机上确认该配置是否变更,如果未发生变更,即说明该项是满足 n的。

通过这两步,即可获得当前环境下的所有容器内核可调优配置集。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,189评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,577评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,857评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,703评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,705评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,620评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,995评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,656评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,898评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,639评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,720评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,395评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,982评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,953评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,195评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,907评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,472评论 2 342

推荐阅读更多精彩内容

  • Docker — 云时代的程序分发方式 要说最近一年云计算业界有什么大事件?Google Compute Engi...
    ahohoho阅读 15,506评论 15 147
  • 转载自 http://blog.opskumu.com/docker.html 一、Docker 简介 Docke...
    极客圈阅读 10,468评论 0 120
  • 写这篇文章主要是为了今后毕业论文素材上的整理,同时对docker进行巩固温习。大纲: docker简介docker...
    胡图仙人阅读 7,389评论 2 96
  • 在一件事上过度思考,反复纠结,形成反刍机制反应。而我现在就处于这种状态中。 事情的原因是我与先生商量好9月27日晚...
    寻觅09阅读 395评论 0 0
  • 感恩自己拥有工作的能力,工作让自己可以感觉有价值! 感恩自己有孩子的陪伴,让我觉得作为妈妈很幸福! 感恩自己每天都...
    Janewei阅读 204评论 0 1