1. 问题背景
线上环境发现配置了dns地址/etc/resolv.conf。mqtt地址配置在/etc/hosts里面。在容器里面怎么都是无法连上mqtt server。总是报io timeout.
在宿主机上面telnet mqtt地址是能够连通的。最后把所有的dns配置注释掉。修改/etc/reslov.conf里面的文件都为空以后。再启动容器mqtt server能连上。
2. 技术分析
uscada融合方案使用的容器网络是用的端口映射方式而非host主机方式,所以在宿主机上面配置的/etc/hosts是不会直接挂载到容器里面的。这个在实验室调试的时候宏振已经发现。
所以已经将/etc/hosts在启动容器的时候通过命令行挂载到了容器内部。命令行如下
cat /etc/hosts|grep -v '^2":"$1}}'|tr -s "\n" " "
发生问题的时候进入容器里面也能看到/etc/hosts里面是有内容的。
查看golang net库里面关于dns解析顺序的代码可以看到代码如下:https://github.com/golang/go/blob/dev.boringcrypto.go1.13/src/net/conf.go#L198
这里的意思就是,如果不存在/etc/nsswitch.conf文件那么dns查找的时候默认就只会去查dns服务器的,不再查找/etc/hosts。
文件/etc/nsswitch.conf(name service switch configuration,名字服务切换配置)规定通过哪些途径以及按照什么顺序通过这些途径来查找特定类型的信息。还可以指定某个方法奏效或失效时系统将采取什么动作。
对于dns查询就是制定先查询files(/etc/hosts)还是dns解析服务器/etc/resolv.conf。
看了下容器里面果然没有塞/etc/nsswitch.conf这个文件。docker镜像aplie官方的解决方案https://github.com/docker-library/docker/pull/84/files
在docker 17.06的时候alpine 3.6这个镜像确实会放这个文件进去。可是我们现在使用的docker alpine都是3.14的版本居然没有这个文件比较奇怪。
后来alpine 的人说这个鬼问题不应该是我们镜像的问题呀。用musl libc和python都没有这个问题。这个应该是golang sdk自己的锅。
https://github.com/gliderlabs/docker-alpine/issues/367
然后有人就给golang sdk提了个bug https://github.com/golang/go/issues/35305。golang官方也在golang 1.16版本修复了这个问题。
https://github.com/golang/go/blob/dev.boringcrypto.go1.16/src/net/conf.go#L198
就是nsswtich文件不存在的时候查询dns是先查文件/etc/hosts/然后再查dns服务器。
docker alpine镜像的人看docker修复了这个问题,他们就把最初塞nsswtich文件到镜像里面的fix给移除了。
由于我们使用的主流的golang版本还是1.12和1.13所以我们都存在这个问题。
3. 解决方案
说道这里问题也就迎刃而解了。我们自己手动塞nsswtich.conf文件。
查看文件是否塞成功