在linux环境下常规页面大小是4K,常规巨页大小有两种一种是2MB,一种是1GB。巨页的好处是:减少硬件tlb miss,如此在连续内存访问场景下可以得到较大的性能提升。一般在数据库如:postgreSQL,mySql等数据库都有使用巨页时的优化措施。本文将详细介绍如何在容器环境下使用巨页,以及如何对容器使用的巨页进行限制。
当前centos 7.5为止,透明巨页不支持1GB,只支持4k—>2MB,4MB
第一章 巨页在linux上的配置
在内核中配置CONFIG_HUGETLB_PAGE和CONFIG_HUGETLBFS可以启动巨页。内核启动后通过如下命令可以挂在hugepagefs:
mount -t hugetlbfs nodev /dev/hugepages
我们在centos7.4上,内核配置和上述mount hugetlbfs的过程在系统已经默认启动了。同时系统还启动了透明巨页thp,它简化了我们使用巨页的过程。同时还在系统中配置了扫描和整理巨页的内核进程khugepaged,此进程周期性的将页面进行扫描和整理。
cat /sys/kernel/mm/transparent_hugepage/enabled
如果显示时always或madvise就表明透明巨页启动了。
其他透明巨页的配置请参考网络https://blog.csdn.net/wodatoucai/article/details/78493202
设置主机巨页
通过如下命令可以看到主机巨页数
cat /proc/meminfo |grep -i huge
AnonHugePages: 421888 KB
Hugepages_Total: 0
Hugepages_Free: 0
Hugepages_Rsvd:0
HugePagesize: 2048KB
先喂系统中开16个2MB巨页,可以通过如下方法
方法1:sysctl
sysctl vm.nr_hugepages=16
方法2:直接修改/sys/目录
echo 16 >/sys/kernel/mm/hugepages/hugepages-2048kB/nr_hugepages
或
echo 16 >/sys/device/system/node/$node/hugepages/hugepages-2048kb/nr_hugepages
上述方法喂系统巨页以后,通过cat /proc/meminfo |grep -i huge 就可以看到系统中空闲巨页、巨页总数为16.
第二章 在docker容器里使用巨页
oci runc里对巨页的处理
在oci标准里定义了Spec.Linux.Resource.HugepageLimites,其格式如下:
type HugepageLimit struct{
Pagesize string
Limit uint64
}
而且runc确实也能通过传递过来的config.json文件解析出来的spec设置容器hugetlb.$(hugetlb.Pagesize).limit_in_bytes
$(hugetlb.Pagesize) 为runc中的变量这里用shell方式写出来。
Docker-engine(Moby)对巨页的处理
但是在Docker(moby)中,并没有命令参数设置容器的hugepage,在docker-engine里也没有相应的流程处理hugepage。Docker-engine在容器start时的*Daemon containerStart()中首先通过Daemon createSpec()创建的符合Oci标准定义的Spec,然后调用*client create()创建/var/run/docker/libcontainerd/$containerid/config.json。就是在Daemon createSpec()里调用docker-engine\daemon\oci_linux.go:setResouces()填充Spec.Linux.Resources时刻没有对hugetlblimit成员进行任何处理。
在Moby社区里,截止2018年9月27日已经有人提交了hugetlbLimit的pr,但是社区尚未merge过:
https://github.com/moby/moby/pull/29911
操作步骤
既然Docker尚未真正实现巨页,我们也可以手动通过下面的步骤实现对docker容器里限制巨页的使用。
限制所有Docker容器的巨页使用
我们在第一章中介绍了如何向主机系统喂巨页的操作方法。容器作为主机上的进程组,如果不做任何多余配置,那么所有的容器都可以受到第一章中配置的巨页的约束。也就是说假使我在主机上配置16个巨页,我有两个容器那么,这两个容器和主机上的其他进程一共可以16个巨页。
还有一种方式可以将设置所有的Docker容器使用的总巨页数
在docker.service启动以后通过修改:
echo 4194304>/sys/fs/cgroup/docker/hugetlb.2MB.limit_in_bytes
如此修改后,所有的docker容器一共只能用2个2MB的巨页。当然这里配置巨页数要小于或等于第一章中配置的巨页内存大小
限制某个容器的巨页使用
前面的方法可以对所有docker使用的巨页进行限制,这里我们再介绍一种对某个容器使用的巨页进行限制。注意:此方法只能在容器业已启动后进行限制
echo 4194304>/sys/fs/cgroup/hugetlb/docker/$dockerid/hugetlb.2MB.limit_in_bytes
当容器里遭遇到cgroup设置的hugetlblimit导致的巨页分配失败时候,应用会受到SigBus 信号
验证
这里使用如下程序hugetlb.c验证巨页:
#include <sys/mman.h>
#include <stdio.h>
#include <memory.h>
int main(int argc, char *argv[]) {
char *m;
size_t s = (2UL * 1024 * 1024);
m = mmap(NULL, s, PROT_READ | PROT_WRITE,
MAP_PRIVATE | MAP_ANONYMOUS | 0x40000 /*MAP_HUGETLB*/, -1, 0);
if (m == MAP_FAILED) {
perror("map mem");
m = NULL;
return 1;
}
memset(m, 0, s);
printf("map_hugetlb ok, press ENTER to quit!\n");
getchar();//等待
munmap(m, s);
return 0;
}
在主机上完成编译。
gcc -c hugetlb -o hugetlb.o
gcc hugetlb.o -static -o hugetlb
创建一个目录将测试程序拷贝进去,并通过容器-v参数讲此目录bind mount到容器里首先你需要一个ubuntu镜像
mkdir -p /home/zxy/work
mv hugetlb /home/zxy/work
docker run -it -v /home/zxy/work:/home/work ubuntu:latest bash
进入容器后,运行hugetlb。同时在另外一个主机控制台上,通过docker exec命令再在刚创建的容器上,再创一个bash
docker exec -it dockerid bash
此处运行cat /proc/meminfo|grep -i huge可以看到有一个巨页被使用了。
在hugetlb程序运行完成后,如果按照上一小节的方法将测试容器的/sys/fs/cgroup/hugetlb/docker/$dockerid/hugetlb.2MB.limit_in_bytes修改为0,然后再在上述容器里运行hugetlb程序会提示收到sigbus信号中止了。
如何知道程序使用了巨页
通过如下命令可以看到程序是否使用巨页
echo /proc/$pidof programfilename/maps|grep -i hugepage
Xxxxxxx---xxxxxxx xxxxx. /anon_hugepage(deleted)
上述maps中anon_hugepage里的delete表明这个页面被hugetlbfs使用了,并不是表明删除了。
cgroup实现的hugetlb 控制
cgoup中hugetlb控制hugepage的使用是从内核3.10才开始支持的。有如下控制项:
hugetlb.<hugepagesize>.limit_in_bytes //可读写,控制hugepage的使用量
Hugetlb.<hugepagesize>.max_usage_in_bytes//只读,显示历史上最大hugepage使用量
Hugetlb.<hugepagesize>.usage_in_bytes//只读,显示当前的hugepage使用量
Hugetlb.<hugepagesize>.failcnt//只读,显示因为当前的cgroup hugetlb限制而导致的hugepage分配失败次数。*
总结
在docker上要使用hugepage,需要首先在主机上喂hugepage。如果需要对容器使用的hugepage进行控制,那么需要手动在主机上设置cgroup hugetlb limit。