笔者对健康检查的疑惑,如果没有配置主动的健康检查,负载里面有一台服务器异常,会出现什么情况?
- 首先笔者准备了两台Python的虚拟机服务,分别是A和B。具体代码如下
服务器A准备8090端口,响应A,上下文/a
import uvicorn
from typing import Union
from fastapi import FastAPI, Request
app = FastAPI()
@app.get("/")
def read_root():
return {"Server": "A"}
if __name__ == '__main__':
uvicorn.run(app=app, host='192.168.187.160', port=8090)
启动服务器A
gunicorn main:app --bind 0.0.0.0:8090 -w 2 -k uvicorn.workers.UvicornWorker
在nginx服务器上测试服务A,响应正常
服务器B准备8080端口,响应B,上下文/b
import uvicorn
from typing import Union
from fastapi import FastAPI, Request
app = FastAPI()
@app.get("/b")
def read_root():
return {"Server": "B"}
if __name__ == '__main__':
uvicorn.run(app=app, host='192.168.187.161', port=8080)
启动服务B
gunicorn main:app --bind 0.0.0.0:8080 -w 2 -k uvicorn.workers.UvicornWorker
在nginx服务器上测试服务器B,响应正常
- 接下来配置nginx服务
upstream test {
#server 192.168.187.161:8080 max_fails=1 fail_timeout=60;
#server 192.168.187.160:8090 max_fails=1 fail_timeout=60;
server 192.168.187.161:8080;
server 192.168.187.160:8090;
}
server {
listen 8899;
location / {
proxy_pass http://test;
}
}
启动nginx,8899端口
- 在准备一个python的客户端
import random
import time
import requests
def main():
session = requests.session()
uri = ''
for i in range(0, 200000):
start_time = time.time()
url='http://192.168.187.153:8899/'+uri
resp = session.get(url)
end_time = time.time()
print('第: ' + str(i + 1) + '次, ' + str(resp.json()), str(round((end_time-start_time) * 1000, 2)) + '毫秒')
if i%2 != 0 and i != 0:
print('======>')
time.sleep(random.randint(1, 2))
if __name__ == '__main__':
main()
直接允许,查看结果如下
从结果来看,因为nginx采用的就是默认发负载均衡算法,轮询。每两次请求会分别请求到服务A和服务B上面去。
-
此时我们结束掉服务A的进程,再查看响应结果。
可以看到是直接切换到了B服务,并且基本上没有延迟。我们抓取nginx服务器到服务器A的报文,可以看到nginx一直再尝试连接服务器A,但是并未成功。
每次尝试对服务器A的连接,都会收到Reset报文,因此nginx应该自不必将请求打给服务器A。
-
我们重启服务A的python服务。
OK,一切恢复正常。
-
此时,我们直接将服务A的虚拟机关机。立即看到了超级大的延迟。
并且每连续请求四轮或者三轮,即可看到一次超大的请求B的延迟。
这种情况也比较好分析,因为路由超时了。服务器A直接关机,导致路有超时,nginx服务器不断发送ARP讯问各单位谁是服务器A。关机情况下,会造成比较大的延迟发生。
- 此时我们给负载均衡加上健康检查的配置。
upstream test {
#server 192.168.187.161:8080 max_fails=1 fail_timeout=5;
server 192.168.187.160:8090 max_fails=1 fail_timeout=60;
server 192.168.187.161:8080;
#server 192.168.187.160:8090;
}
server {
listen 8899;
location / {
proxy_pass http://test;
}
}
我们可以观察到,延迟变少了。之前是四轮或者三轮就会出现,现在会在60秒(大概20轮次左右)不再去请求服务A。
那我们此时如果把检查周期改为3秒,是不是出现延迟的情况会立即增大呢。
server 192.168.187.160:8090 max_fails=1 fail_timeout=3;
我们查看响应结果。
我们可以看到非常频繁的大延迟发生,因此检查周期改为3秒,对服务器关机的情况其实意义不大。
此时我们可以得出一个初步的结论。后端服务如果是异常关闭,那么对nginx产生的延迟并不大,或者说没有发现太大的异常;如果后端服务器异常下线、关机。导致路由不可达,那么会造成非常大的延迟发生,此时配置上较长时间的健康检查周期,会极大减缓延迟的发生的时间。因此健康检查的频率,时间周期是需要整对不同故障情况进行不同的配置。
此结论仅本次测试得出,并非一定符合所有的情况。欢迎讨论。