最近公司业务线上经常报TIME_WAIT的连接数过多的问题,多方查阅资料,在这里总结有关TIME_WAIT的问题。
TIME_WAIT 是啥?
我们常见的TCP连接多数为短连接。TCP建立连接需要三次握手,断开连接需要四次挥手。而这个TIME_WAIT就是出现在断开连接的四次挥手过程中,还是先看下TCP四次挥手。
1:Clinet客户端主动发起关闭请求,向Server服务端send FIN。
2:服务端收到FIN,向客户端ACK确认请求。
3:服务端关闭连接准备就绪,向客户端发送FIN。
4:同样的客户端收到FIN也向服务端发送ACK确认请求。
当第四步客户端send ACK之后就进入了TIME_WAIT状态。之所以出现TIME_WAIT,也是出自于考虑连接的可靠性。
假如TCP连接这个时候直接进入CLOSED状态,只要服务端没有收到ACK就会导致重新发送FIN,原来连接已经CLOSED,客户端会返回RST包用于强制关闭TCP连接,而且这个FIN也有可能影响其他的连接,这样一来,TCP连接就变得不可靠了,所以这个TIME_WAIT有存在的必要。
从图上来看都是客户端进入TIME_WAIT状态,为啥服务端的监控会出现TIME_WAIT报警呢?其实TIME_WAIT状态总是出现在主动发起关闭连接的一方。当然这里的客户端、服务端也都是相对的概念。服务端当然也会有场景去担当客户端,比如去连接数据库,连接缓存等等,这时候服务端担任的角色恰好就是"客户端"。这也就是服务端经常会报TIME_WAIT连接数的原因了。
当服务端作为客户端发起TCP连接的时候,是需要占用本地的端口号的。在Linux系统中,我们通过cat /proc/sys/net/ipv4/ip_local_port_range
指令可以查看系统可分配的端口总数,Linux默认的端口范围:32768~61000
,共计28232个可用端口。同样我们可以通过cat /proc/sys/net/ipv4/tcp_fin_timeout
查看tcp连接默认的timeout时长,Linux默认的timeout时间是60
秒。由此可见服务器向外发送连接每秒最多大约470个端口可供使用。当我们需要每秒建立大量的连接的时候,就会受限于此。
调优
对于调优方案来说,我认为没有最好的方案,只有最合适的方案,可以根据业务类型不同加以选择。
- 短连接变长连接,减少连接数量。
-
echo 30 > /proc/sys/net/ipv4/tcp_fin_timeout
缩短timeout的时间 -
echo 15000 65000 > /proc/sys/net/ipv4/ip_local_port_range
扩大可用端口范围,当然这里需要注意端口冲突的问题。 - 启用tcp_tw_recycle 和 tcp_tw_reuse,这个方式不推荐。