OpenShift Pod 域名解析超慢问题

现象

在客户现场发现,容器应用访问外部系统超时,发现 pod 在解析外部系统的域名时时间很长,5秒、15秒、25秒时间不等。

环境及问题

在自己的虚机上搭建了三个节点,使用的OCP版本与客户相同,发现同样的问题,6个 pod 跑在三个节点上,分别每个节点2个 pod。

  • 环境描述

在宿主机的/etc/hosts内添加解析或者在dnsmasq内添加解析规则,重启dnsmasq,没有配置上游dnsmasq,出问题的环境是OCP 3.9.51,我在该环境去解析另外一套OCP 3.9.25集群的访问入口地址。

  • 测试方式 curl
curl -w %{time_namelookup}::%{time_total} -o 1 -k  https://cluster.ocp39-25.zhangsp.com:8443
  • 现象

使用curl去测试,宿主机解析地址速度正常、pod内解析时间很长,分别有几段时间内为25s、15s、5s。

使用nslookup测试宿主机正常,pod内有时候会解析成功,有时候失败,提示找不到。

排查过程及结果

  1. 排除上游 DNS 的问题

不使用 dnsmasq 本地进行解析,把解析条目使用上游 dns 进行解析,发现每个 pod 同样存在一样的问题,可以先排除了因为没有使用上游 DNS 导致的解析慢问题。

  1. ipv6 问题一

上网查了一些资料,发现有可能是ipv6的问题导致的,在 curl 调用时加入 -4 参数(curl -4 -w %{time_namelookup}::%{time_total} -o 1 -k https://cluster.ocp39-25.zhangsp.com:8443
),-4参数的意思是指明使用ipv4协议,在 6 个实例 pod 副本中,执行一个 for 循环脚本,sleep 三分钟执行一次curl,再sleep 3分钟执行 curl -4,测试了几个小时后,通过看日志可以非常有规律的看到,执行 curl 不加 -4 参数几乎都是要15秒左右才有响应,而 curl -4 都是在毫秒内完成 dns 解析和页面内容返回。

  • curl 与 curl -4 命令执行的交替输出
image
  1. ipv6 问题二

直接关闭操作系统ipv6协议,在排查1环境中继续测试,将其中一个节点关闭ipv6协议,再进行测试几个小时,查看日志,发现跑在关闭 ipv6 节点的两个 pod ,使用 curl 和 curl -4 都是在毫秒内完成响应。

image
  • 关闭操作系统ipv6协议

编辑:/etc/default/grub
在 GRUB_CMDLINE_LINUX 开头追加 ipv6.disable=1 参数

执行:

1、grub2-mkconfig -o /boot/grub2/grub.cfg

2、重启

检查:
通过ip或者ifconfig可以查看网卡是否有 inet6 字段

  1. 在 DevelopmentConfig 中加入 hostAliases

在排查2环境中继续测试,在DevelopmentConfig中加入 hostAliases ,这个字段内可以填写域名解析关系,会在pod内的/etc/hosts中添加相应解析规则,经过几个小时运行,查看6个pod的日志发现,每个pod在curl命令中都是在毫秒内响应了。

  1. 我在以上4个测试过程中的脚本里头也添加过 nslookup 和 dig 命令进行了测试。nslookup 命令的执行结果也有经常提示无法解析,不过是很快返回,不过再次执行就可以解析了。而dig每次都是快速就能返回了,怀疑 nslookup 和 dig 解析时候方式不一样。

结论

其实 OpenShift 目前的 Dnsmasq 加 Skydns 的 DNS 解析方案我遇到过各种各样的问题,红帽bug列表也把我遇到的大部分dns问题加进去了,解决方法大部分只能通过 workaround 的方式跳过 bug 来解决,期待以后的 OCP 新版本中的 CoreDns 能解决现在这些问题。

以前遇到的DNS问题

在配置了上游DNS时,不管宿主机还是Pod内解析SVC地址(如:x.x.svc, x.x.svc.cluster.local )时,就会去上游DNS解析,很明显上游DNS是无法解析这种地址的;解决方法:

  • 在/etc/dnsmasq.d/下创建一个.conf文件,内容为:
local=/svc/
local=/svc.cluster.local/

这两个字段是指明解析以上地址时强制使用本地的DNS,不走上游的,走本地DNS,而本地DNS(即skydns,包含在atomic-node服务中)是能够解析这些地址的。

  • 重启dnsmasq服务。

排查工具

在排查问题的时候经常发现容器内没有各种命令,因为我基于 rhel7 镜像做了一个工具镜像,可以参考一下Dockerfile:

FROM registry.access.redhat.com/rhscl/s2i-base-rhel7
USER  root
# ocp.repo is /etc/yum.repos.d/ocp.repo, to config yum repo
ADD ./ocp.repo /etc/yum.repos.d/
RUN yum -y install wget bind-utils iproute net-tools.x86_64 tcpdump telnet traceroute iputils vim psmisc tree && yum clean all -y
Entrypoint sleep 30d
  • 启动命令
oc new-app --docker-image=172.31.20.31:5000/tools-rhel7-images --name=tools

排查的时候执行脚本

我在容器启动的时候自动运行我设定的脚本,脚本放在configmap里面,方便修改,将 configmap 挂到 pod 内的一个路径下,在DC里头定义启动 pod 的命令为去该路径下执行该脚本。

  • configmap 内容
for ((i=1;i<=2000000000;i++));
  do
    dig cluster.ocp39-25.zhangsp.com >> dig.log &&sleep 3m &&curl -4 -w %{time_namelookup}::%{time_total} -o 1 -k https://cluster.ocp39-25.zhangsp.com:8443  >> test4.log &&sleep 3m&&curl -w %{time_namelookup}::%{time_total} -o 1 -k https://cluster.ocp39-25.zhangsp.com:8443  >> test.log &&sleep 3m
  done
echo finished;

在 pod 内注入 hosts解析和启动命令

  • DC 内容(包含hostAliases)
apiVersion: v1
kind: DeploymentConfig
metadata:
  annotations:
    openshift.io/generated-by: OpenShiftNewApp
  creationTimestamp: null
  generation: 1
  labels:
    app: tools
  name: tools
spec:
  replicas: 6
  revisionHistoryLimit: 10
  selector:
    app: tools
    deploymentconfig: tools
  strategy:
    activeDeadlineSeconds: 21600
    resources: {}
    rollingParams:
      intervalSeconds: 1
      maxSurge: 25%
      maxUnavailable: 25%
      timeoutSeconds: 600
      updatePeriodSeconds: 1
    type: Rolling
  template:
    metadata:
      annotations:
        openshift.io/generated-by: OpenShiftNewApp
      creationTimestamp: null
      labels:
        app: tools
        deploymentconfig: tools
    spec:
      containers:
      - command:
        - sh
        - /tmp/xjj/test2.sh
        image: 172.31.20.31:5000/tools-rhel7-images:latest
        imagePullPolicy: Always
        name: tools
        resources: {}
        terminationMessagePath: /dev/termination-log
        terminationMessagePolicy: File
        volumeMounts:
        - mountPath: /tmp/xjj
          name: test2-shell-t76xs
          readOnly: true
      dnsPolicy: ClusterFirst
      hostAliases:
        - hostnames:
            - cluster.ocp39-25.zhangsp.com
          ip: 172.31.20.11
      restartPolicy: Always
      schedulerName: default-scheduler
      securityContext: {}
      terminationGracePeriodSeconds: 30
      volumes:
      - configMap:
          defaultMode: 420
          name: test2-shell
        name: test2-shell-t76xs
  test: false
  triggers:
  - type: ConfigChange

参考链接

  • 关闭系统ipv6

https://cloud.tencent.com/developer/article/1375080

  • 给 pod 内添加hosts解析

https://kubernetes.io/docs/concepts/services-networking/add-entries-to-pod-etc-hosts-with-host-aliases/

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,922评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,591评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,546评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,467评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,553评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,580评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,588评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,334评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,780评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,092评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,270评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,925评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,573评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,194评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,437评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,154评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,127评论 2 352

推荐阅读更多精彩内容