Bios设置对 redis fork的影响

Redis fork适配问题

D系列机型是后续弹性云的主力机型，相对于Redis之前使用的C系列机型或者T系列机型，在cpu、内存、磁盘上都有极大的提升。但在测试过程中，Redis在D系列机型上的性能表现反而不如C系列机型。

测试对比：

机器	99分位最大值	99分位平均值	fork平均值	proxy慢日志
D系列机型	208ms	8.77ms	147ms-159ms	466940
T系列机型	186ms	10.10ms	97ms-120ms	419408

在机器配置大幅度提升情况下，fork时常反倒降低，这是不符合常理的。而且fork一直是Redis性能的核心痛点之一，我们从各个维度去优化fork，是不可能容忍fork30%左右的延时提升。

Redis fork源代码

int redisFork() {
    int childpid;
    long long start = ustime();
    if ((childpid = fork()) == 0) {
        /* Child */
        closeListeningSockets(0);
        setupChildSignalHandlers();
    } else {
        /* Parent */
        server.stat_fork_time = ustime()-start;
        server.stat_fork_rate = (double) zmalloc_used_memory() * 1000000 / server.stat_fork_time / (1024*1024*1024); /* GB per second. */
        latencyAddSampleIfNeeded("fork",server.stat_fork_time/1000);
        if (childpid == -1) {
            return -1;
        }
        updateDictResizePolicy();
    }
    return childpid;
}

Redis fork耗时由stat_fork_time记录，从代码中开出，fork仅仅只是linux层面的耗时，跟Redis应用代码逻辑是毫无关系的。

Linux fork耗时核心开销

fork之后，内核会使用cow机制。当父进程或者子进程对某个页进行写入时，内核会拷贝一份该页的副本，并且会覆盖掉副本页所映射的页表项。这就需要内核能够通过页框找到映射该页的页表以及进程，这也就是反向映射（RMAP）技术。
内核用结构体类型 struct page 对页框进行描述。该结构体的一个成员叫做 mapping；是一个指向结构体类型 address_space 的指针，address_space 类型用于描述该物理页对应的文件对象。其成员包括文件的 inode、用于管理该文件所对应的所有物理页的各种数据结构、以及两个链表（i_mmap 和 i_mmap_shared），链表上存放的每个元素保存了一个进程映射该文件后所得到的虚拟地址信息，采用结构体类型 vm_area_struct（通常简称为 “VMA”）来表示。VMA 提供了一个物理页在一个进程的地址空间中所对应的虚拟地址的信息，根据这些信息可以用于查找正确的页表条目。这样我们就能访问并修改与一个物理页相关的所有页表。
为了进行后续的cow，fork() 需要为进程地址空间中的每个页都添加新的反向映射项，而随着物理页数量的增多操作速度开始变慢，执行速度会显著降低。社区一直在努力试图改进 RMAP 的整体效率。
fork主要在dup_mm() 函数中组织父子进程的匿名线性区反射映射结构anon_vma和anon_vma_chain。
通过抓取fork也从某种程度上说明了这个问题：

trace-cmd record -p function_graph -l do_fork -P $YOU_PID
trace-cmd report > result.log

image.png

随后根据dup_mm调用，抓取了更多的子函数，查看耗时。

trace-cmd record -p function_graph -l do_fork -l copy_process -l security_task_create -l dup_mm -l wake_up_new_task -l copy_pte_range -l _raw_spin_lock  -P $YOU_PID

因为trace-cmd薛定谔抓不准，尝试很多的子函数都被drop掉。但在抓spin_lock的时候，我们开始注意到cpu争抢的问题。
猜测之下，关闭超线程。脚本：

#!/bin/bash
HYPERTHREADING=1
function toggleHyperThreading() {
 
  for CPU in /sys/devices/system/cpu/cpu[0-9]*; do
 
      CPUID=`basename $CPU | cut -b4-`
 
      echo -en "CPU: $CPUID\t"
 
      [ -e $CPU/online ] && echo "1" > $CPU/online
 
      THREAD1=`cat $CPU/topology/thread_siblings_list | cut -f1 -d,`
 
      if [ $CPUID = $THREAD1 ]; then
 
          echo "-> enable"
 
          [ -e $CPU/online ] && echo "1" > $CPU/online
 
      else
 
        if [ "$HYPERTHREADING" -eq "0" ]; then echo "-> disabled"; else echo "-> enabled"; fi
 
          echo "$HYPERTHREADING" > $CPU/online
 
      fi
 
  done
 
}
function enabled() {
 
        echo -en "Enabling HyperThreading\n"
 
        HYPERTHREADING=1
        toggleHyperThreading
}
function disabled() {
 
        echo -en "Disabling HyperThreading\n"
 
        HYPERTHREADING=0
        toggleHyperThreading
}
#
ONLINE=$(cat /sys/devices/system/cpu/online)
OFFLINE=$(cat /sys/devices/system/cpu/offline)
echo "---------------------------------------------------"
 
echo -en "CPU's online: $ONLINE\t CPU's offline: $OFFLINE\n"
 
echo "---------------------------------------------------"
 
while true; do
 
    read -p "Type in e to enable or d disable hyperThreading or q to quit [e/d/q] ?" ed
 
    case $ed in
 
        [Ee]* ) enabled; break;;
 
        [Dd]* ) disabled;exit;;
        [Qq]* ) exit;;
 
        * ) echo "Please answer e for enable or d for disable hyperThreading.";;
 
    esac
 
done

测试一亿数据量：

未关闭超线程：

Thread(s) per core: 2
latest_fork_usec:140700

关闭超线程：

Thread(s) per core: 1
latest_fork_usec:96274
至此定位到cpu问题上。但是我们是不能通过关闭超线程来解决这个问题的。

Cpu cstat、pstat

image.png

有了工具，接着我们用 Top-Down模型分析调优。

首先我们自己写程序模拟fork问题，代码如下：

#include <stdlib.h>
#include <sys/time.h>
#include <stdio.h>
 
#define LEN 1024*768
 
int main()
{
        char  *p[LEN];
        float  time_use = 0;
        struct  timeval start;
        struct  timeval end;
        unsigned long long i = 0, j = 0;
 
        for(i = 0; i < LEN; i++) {
                p[i] = (char *)malloc(4096);
                if (p[i] == NULL) {
                        printf("malloc failed!\n");
                        return 0;
                }
                p[i][0] = 0x55;
        }
 
#if 1
 while (1) {
  for(i = 0; i < LEN; i++)
   for(j = 0; j < 4096; j++) {
    p[i][j] = (char)rand();
    usleep(100);
   }
 }
#endif
 
        gettimeofday(&start,NULL);
        fork();
        gettimeofday(&end,NULL);
 
        time_use=(end.tv_sec * 1000000 + end.tv_usec)-(start.tv_sec * 1000000 + start.tv_usec);
        printf("time_use is %.10f us\n",time_use);
        while(1)
                usleep(10);
 
 
        return 0;
}

虽然在某些机型上呈现出薛定谔的跑不准。不过在验证的机器上，还是明显看到topdown的区别。

image.png

名词解释：

Frontend bound（前端依赖）指的是通过CPU预加载、乱序执行技术获得的额外性能。

Backend bound（后端依赖）指的是传统的CPU负责处理事务的能力。由于这一个部分相对其他部分来说，受程序指令的影响更为突出，这一块又划分出了两个分类。core bound（核心依赖）意味着系统将会更多的依赖于微指令的处理能力。memory bound（存储依赖）这里的memory包含了CPU L1～L3缓存的能力和传统的内存性能。

Bad speculation（分支预测错误）这一部分指的是由于CPU乱序执行预测错误导致额外的系统开销。
Retiring（拆卸）字面理解是退休的意思，事实上这里指的是等待指令切换，模块重新初始化的开销。

优化方式：

在前端依赖中，如果iTLB miss率较高，可采用hugepage来进行优化。
如果分支预测开销较大，可以通过编译器参数-funrool-loops来进行优化，也可以对指令进行重新排布，尽量让跳转指令分布在不同的内存区间中；另外使用PGO/FDO进行预编译来提高分支预测的准确率。
在核心依赖中的开销占比可以通过增加计算核心来降低。存储依赖的开销中，如果L1及L2 cache miss率较高，可以更新编译器，使用编译优化参数来减少指令条数。如果是内存的话就可以通过升级内存带宽或者更高频、更低潜伏期的内存来获得性能提升。

Redis是一种后端依赖，可以通过pmu-tools工具进一步确认是存储依赖。C0所有core都会一直占用cache，C1的时候休眠的core是不使用cache的，会释放cache，以此来降低cache miss。

image2021-5-13_17-46-39.png

调优结果

Bios调整到c1不降频c1E，勉强到达性能要求。

image.png

参考文章

内存回收(匿名页反向映射)
cnblogs.com/Leo_wl/p/5402115.html

Intel CPU 上使用 pmu-tools 进行 TopDown 分析
https://blog.csdn.net/gatieme/article/details/113269052

Top-down Microarchitecture Analysis Method

https://kernel.taobao.org/2019/03/Top-down-Microarchitecture-Analysis-Method/

Top-Down模型分析调优
https://support.huaweicloud.com/tngg-kunpenghpcs/kunpenghpcsolution_05_0030.html

CPU C-states 影响和监测

https://www.aikaiyuan.com/1944.html

What's the reason clear_page_c_e is eating most CPU time here?
https://stackoverflow.com/questions/45417187/whats-the-reason-clear-page-c-e-is-eating-most-cpu-time-here

Avoiding and Identifying False Sharing Among Threads
https://software.intel.com/content/www/us/en/develop/articles/avoiding-and-identifying-false-sharing-among-threads.html

LWN 23732: 虚拟内存之基于对象的反向映射技术

https://mp.weixin.qq.com/s/VyRsgKQjbsW0v0UEr9-c2w

Linux fork那些隐藏的开销

https://mp.weixin.qq.com/s/WzIZbqgahFakPozdeLGRtg

fork()成为负担，需要淘汰

https://mp.weixin.qq.com/s/ImC0L7_sH1_TPgAiYCBX1g

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 230,182评论 6赞 543
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 99,489评论 3赞 429
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 178,290评论 0赞 383
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 63,776评论 1赞 317
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 72,510评论 6赞 412
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 55,866评论 1赞 328
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 43,860评论 3赞 447
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 43,036评论 0赞 290
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 49,585评论 1赞 336
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 41,331评论 3赞 358
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 43,536评论 1赞 374
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 39,058评论 5赞 363
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 44,754评论 3赞 349
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 35,154评论 0赞 28
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 36,469评论 1赞 295
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 52,273评论 3赞 399
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 48,505评论 2赞 379

Bios设置对 redis fork的影响

Redis fork适配问题

Linux fork耗时核心开销

Cpu cstat、pstat

调优结果

参考文章

推荐阅读更多精彩内容