关于nginx健康检查

笔者对健康检查的疑惑，如果没有配置主动的健康检查，负载里面有一台服务器异常，会出现什么情况？

首先笔者准备了两台Python的虚拟机服务，分别是A和B。具体代码如下
服务器A准备8090端口，响应A，上下文/a

import uvicorn
from typing import Union

from fastapi import FastAPI, Request

app = FastAPI()

@app.get("/")
def read_root():
    return {"Server": "A"}

if __name__ == '__main__':
    uvicorn.run(app=app, host='192.168.187.160', port=8090)

启动服务器A
gunicorn main:app --bind 0.0.0.0:8090 -w 2 -k uvicorn.workers.UvicornWorker

在nginx服务器上测试服务A，响应正常

image.png

服务器B准备8080端口，响应B，上下文/b

import uvicorn
from typing import Union

from fastapi import FastAPI, Request

app = FastAPI()

@app.get("/b")
def read_root():
    return {"Server": "B"}

if __name__ == '__main__':
    uvicorn.run(app=app, host='192.168.187.161', port=8080)

启动服务B
gunicorn main:app --bind 0.0.0.0:8080 -w 2 -k uvicorn.workers.UvicornWorker

在nginx服务器上测试服务器B，响应正常

image.png

接下来配置nginx服务

upstream test {
  #server 192.168.187.161:8080 max_fails=1 fail_timeout=60;
  #server 192.168.187.160:8090 max_fails=1 fail_timeout=60;

  server 192.168.187.161:8080;
  server 192.168.187.160:8090;

}

server {

   listen 8899;

   location / {
        proxy_pass http://test;
    }

}

启动nginx，8899端口

在准备一个python的客户端

import random
import time

import requests


def main():
    session = requests.session()
    uri = ''
    for i in range(0, 200000):
        start_time = time.time()
        url='http://192.168.187.153:8899/'+uri
        resp = session.get(url)
        end_time = time.time()
        print('第: ' + str(i + 1) + '次, '  + str(resp.json()), str(round((end_time-start_time) * 1000, 2)) + '毫秒')
        if i%2 != 0 and i != 0:
            print('======>')
        time.sleep(random.randint(1, 2))

if __name__ == '__main__':
    main()

直接允许，查看结果如下

image.png

从结果来看，因为nginx采用的就是默认发负载均衡算法，轮询。每两次请求会分别请求到服务A和服务B上面去。

此时我们结束掉服务A的进程，再查看响应结果。

image.png

可以看到是直接切换到了B服务，并且基本上没有延迟。我们抓取nginx服务器到服务器A的报文，可以看到nginx一直再尝试连接服务器A，但是并未成功。

image.png

每次尝试对服务器A的连接，都会收到Reset报文，因此nginx应该自不必将请求打给服务器A。

我们重启服务A的python服务。

image.png

OK，一切恢复正常。

此时，我们直接将服务A的虚拟机关机。立即看到了超级大的延迟。

image.png

并且每连续请求四轮或者三轮，即可看到一次超大的请求B的延迟。

image.png

这种情况也比较好分析，因为路由超时了。服务器A直接关机，导致路有超时，nginx服务器不断发送ARP讯问各单位谁是服务器A。关机情况下，会造成比较大的延迟发生。

image.png

此时我们给负载均衡加上健康检查的配置。

upstream test {
  #server 192.168.187.161:8080 max_fails=1 fail_timeout=5;
  server 192.168.187.160:8090 max_fails=1 fail_timeout=60;

  server 192.168.187.161:8080;
  #server 192.168.187.160:8090;

}

server {

   listen 8899;

   location / {
        proxy_pass http://test;
    }

}

image.png

我们可以观察到，延迟变少了。之前是四轮或者三轮就会出现，现在会在60秒（大概20轮次左右）不再去请求服务A。
那我们此时如果把检查周期改为3秒，是不是出现延迟的情况会立即增大呢。

server 192.168.187.160:8090 max_fails=1 fail_timeout=3;

我们查看响应结果。

image.png

我们可以看到非常频繁的大延迟发生，因此检查周期改为3秒，对服务器关机的情况其实意义不大。

此时我们可以得出一个初步的结论。后端服务如果是异常关闭，那么对nginx产生的延迟并不大，或者说没有发现太大的异常；如果后端服务器异常下线、关机。导致路由不可达，那么会造成非常大的延迟发生，此时配置上较长时间的健康检查周期，会极大减缓延迟的发生的时间。因此健康检查的频率，时间周期是需要整对不同故障情况进行不同的配置。

此结论仅本次测试得出，并非一定符合所有的情况。欢迎讨论。

关于nginx健康检查

关于nginx健康检查

笔者对健康检查的疑惑，如果没有配置主动的健康检查，负载里面有一台服务器异常，会出现什么情况？

相关阅读更多精彩内容

友情链接更多精彩内容