浅谈 nginx 的优化(cpu,网络)

Nginx 是一款高性能的web服务器与反向代理器,其高性能是因为利用了Linux内核中的epoll机制,让CPU尽可能的运作起来,不要有阻塞。并且其采用多进程单线程的模式,将cpu与worker进程绑定,尽量减少cpu的上下文切换。

CPU

有效的使用cpu

1. 尽可能使用所有的cpu

场景一:为了让nginx尽可能的使用cpu,所以在配置时,尽量让每个Nginx的worker进程绑定一个cpu。

worker_processes  auto;

场景二:为了防止惊群问题,以前有一个 accep_mutex 选项,但是新版本的Nginx内核(3.9)会使用reuseport。在内核中实现了负载均衡。

场景三:使得每一个worker进程可以独享一个核,提供cpu亲核性,避免多进程争抢。提升CPU的缓存命中率。

worker_cpu_affinity 1000 0100 0010 0001;  # 4核为例 或者直接设置为auto

2. nginx的进程尽量保持全速运行状态。
worker进程不应该在繁忙的时候主动让出cpu。什么情况下会出现worker进程阻塞呢。硬件处理的速度跟不上,比如读磁盘中的数据太慢,读一个网络报文,都会导致nginx的进程处于S 状态,而Nginx的进程应该在高并发的场景下时刻保持R状态。

场景一:在建立一次新的连接的时候,tcp请求刚建立好,还没有数据发过来的时候,nginx不去关注这个连接,当有数据真正发过来了,再开始处理。

server {
        listen 80 deferred;
        return 200 "OK\n";
}

2. nginx的进程不能被其他进程争抢资源。
尤其在nginx lua的使用时,应该注意严禁使用lua自带的一些库,严禁使用会造成阻塞的库,尽量使用 lua-resty-* 的库,这些是openresty的相关库,是经过验证的。

场景一:提升Nginx的优先级,增大Nginx相关进程运行时的时间片时长。
进程优先级最低的可能使用的时间片只有5ms,而最高的优先级可能使用到800ms的时长,默认nginx的worker的优先级是0 ,处于中间。

worker_priority -20;

网络

优化tcp的握手

1. TCP的三次握手阶段的优化
场景一:如果nginx所在机器遭遇到syn攻击,对于nginx这层而言,那么就需要在内核参数上下手,首先降低syn的重试次数.扩大SYN_RCVD 的个数。

  • net.ipv4.tcp_max_syn_backlog
    • SYN_RCVD 状态连接的最大个数, SYN队列的大小(调大)。
  • net.ipv4.tcp_synack_retries
    • 被动建立连接时,发SYN/ACK 的重试次数(可适当减小)。
  • net.core.netdev_max_backlog
    • 接受网卡、但未被内核协议栈处理的报文队列长度大小。
  • net.ipv4.tcp_abort_on_overflow
    • 当超出处理能力时,对新来的SYN直接回RST,丢弃连接。

SYN_RCVD 的数量太小的,会 tcp_overflow

其他的解决办法:

  • net.ipv4.tcp_syncookies = 1
    • 当SYN队列满后,新的SYN不进入队列,计算出cookie后再以SYN+ACK中的序列号返回客户端,正常客户端发报文时,服务根据报文中携带的cookie重新恢复连接
    • 由于cookie占用序列号空间,导致此时所有的可选功能失效,例如扩充窗口,时间戳等。

2. tcp fast open
tcp fast open 是 TFO(TCP Fast Open)是一种能够在TCP连接建立阶段传输数据的机制。使用这种机制可以将数据交互提前,降低应用层事务的延迟。
其原理是降低2次 握手期间的 rtt。当建立过一次3次握手后,server 会存一个cookie。client也会存一个cookie。下次再握手,带着cookie和syn+data 数据,直接开始请求。

TFO

nginx同样可以开启TFO

listen address[:port]  [fastopen=numbers]

超时指令

  • client_body_timeout 60s

  • send_timeout 60s

    • 两次写操作间的超时
  • proxy_timeout 10m

    • 以上两者兼具

TCP,HTTP中的keepalive

TCP和HTTP的keepalive 的功能上是不一样的。
TCP的keepalive

  • 实际应用
    • 检测实际断掉的连接
    • 用于维持与客户端间的防火墙有活跃的网络包
  • 操作
    • tcp keealive
      • 发送心跳周期
        • net.ipv4.tcp_keepalive_time = 7200
      • 探测包的发送间隔
        • net.ipv4.tcp_keepalive_intvl = 75
      • 探测包重试次数
        • net.ipv4.tcp_keepalive_probes = 9

HTTP的keepalive

  • 实际应用
    • 复用TCP连接去发送HTTP报文。减少TCP 握手,挥手次数。

减少关闭连接导致的time_wait 端口数量

首先明确,time_wait 过多会导致的问题是端口被占用。time_wait 在主动关闭方比较多。 CLOSE_WAIT 和 LAST_ACK 在被动关闭连接端比较多(CLOSE_WAIT 太多,可能应用程序有bug,别人发你fin,你总是不回fin,LAST_ACK过多,对方不给你发最后一个ACK)。
一般开了keepalive 的话,client连接nginx,nginx是不会主动关闭连接的,所以timewait会存在在客户端,不开keepalive,nginx处理完后会主动关闭连接,所以会有大量的timewait。

  • 为了解决time_wait 过多的问题。
    • net.ipv4.tcp_tw_reuse = 1

开启后,作为客户端时发起新连接可以使用仍处于TIME_WAIT状态的端口
由于timestamp的存在,操作系统可以拒绝迟到的报文。

- net.ipv4.tcp_timestamps = 1

这里强烈不建议使用 net.ipv4.tcp_tw_recycle
因为,开启后,同时作为客户端服务器端都可以使用 TIME-WAIT 状态的端口,不安全,无法避免报文延迟,重复等给新连接造成的混乱。

  • net.ipv4.tcp_max_tw_buckets = 262144
    • 设置time_wait 状态连接的最大数量。超出后直接关闭连接。
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容