负载均衡
负载均衡(load balance 简称,LB)是一种网络技术,它在多个备选资源中做资源分配。这里有三个关键字:
- 网络技术,LB要解决的问题本质上是网络问题,所以它实际上就是通过修改数据包中MAC地址,IP地址段来实现数据包的“中转”。
- 资源,这里的资源不仅可以是计算机资源,也可以是交换机,存储设备等。
- 最优,它则是针对业务而言最优,所以一般负载均衡有很多算法;轮询、加权轮询、最小负载等;
LB是网络技术,所以业内就参考OSI模型用四层负载均衡和七层负载均衡进行分类。四层负载均衡工作在OSI的第四层(传输层),这里的主要协议有TCP、UDP、SCTP协议,这种类型的负载均衡器不管数据包是什么,只是通过修改IP头部或者以太网头部的地址实现负载均衡。七层负载均衡工作在OSI的第七层(应用层),这一层主要是HTTP,MySQL等应用协议,这种负载均衡一般会把数据包内容解析出来后通过一定的算法找到合适的服务器转发请求。它是针对某些特定的协议,所以不通用。比如NGINX(1.9版本的nginx已经支持四层转发了)只能适用于HTTP而不适用于MySQL。
四层负载均衡是真正意义上的负载均衡,它通过修改网络数据包,然后“中转”请求,一般工作在操作系统的内核空间(kernel space),比如通过Linux的netfilter定义的hook改变数据包。七层负载均衡并不是严格意义上的负载均衡,它必须解析出数据包的内容,根据内容做相关转发(比如MySQL的读写分离);一般工作在用户空间(user space),比如通过Nginx、Mysql Proxy、Apache它们都是实现某个具体协议,很多资料都称这种软件叫代理(Proxy)。
实现LB的问题
任何负载均衡都要解决三个问题:
- 修改数据包,使得数据包可以转发到后端服务器。
- frontend server要维护一个算法,可以选出最优的backend server。
- frontend server要维护一张表记录client和backend server的关系(比如tcp请求是一系列数据包,所以在tcp关闭之前所有的数据包都应该发送到同一个backend,可以参考tcp的三次握手四次断开来理解这段话)。
以nginx为例,frontend server收到http请求数据包后会通过负载均衡算法选择出一台backend server;然后从本地重新构建一个http请求发送给backend server,backend server收到frontend server的http请求后完成数据解析并返数据给frontend server,最后frontend server重新封装此数据返回给client。在这个过程中forntend server的Nginx是工作在用户空间的它代替Client访问backend server。
LVS的实现
它是一款四层负载均衡软件,在它的实现中forntend server称为director;backend server称为real server,它支持UDP、TCP、SCTP、IPSec( AH 、ESP两种数据包 )四种传输层协议的负载。
LVS以内核模块的形式加载到内核空间,通过netfilter定义的hook来实现数据包的控制。 它用到了三个hook(以Linux 4.8.15为例)主要“挂在”:local_in、inet_forward、local_out;所有发送给本机的数据包都会经过local_in,所有非本机的数据包都会经过forward,所有从本机发出的数据包都会经过local_out。
LVS由两部分组成(很像iptables),用户空间提供了一个ipvsadm的命令行工具,通过它定义负载均衡的“规则”;内核模块是系统的主要模块它包括:
- IP包处理模块,用于截取/改写IP报文;
- 连接表管理,用于记录当前连接的Hash表;
- 调度算法模块,提供了八种负载均衡算法——轮询、加权轮询、最少链接、加权最少链接、局部性最少链接、带复制的局部性最少链接、目标地址哈希、源地址哈希;
- 连接状态收集,回收已经过时的连接;
- 统计,IPVS的统计信息
LVS实战
LVS术语定义:
- DS: Director Server,前端负载均衡节点(后文用Director称呼)
- RS: Real Server,后端真实服务器
- VIP: 用户请求的真实IP,一般是公网IP
- DIP: Director Server IP,Director和Real Server通讯的内网IP地址
- RIP: Real Server IP,Director和Real Server通讯的内网IP地址
总结起来,LVS的三种模式只有一个区别,也就是“谁来返回数据给客户端”,在LB架构中,客户端请求一定是先到达forentend Server(LVS中是Director Server),那么返回数据给client不一定经过Director Server。
- NAT模式中,RS返回数据包是给DS的,DS再返回给client。
- DR(Dicter Routing)模式中,RS是直接返回给client数据给client的(通过额外的路由)。Direct通过修改请求中目标MAC地址为选定的RS的MAC地址来实现数据转发,这就要求DS和RS在同一个广播域内了。
- TUN(IP Tunneling)模式中,RS返回的数据也是直接返回给客户端,这种模式通过Overlay协议(把一个IP数据包封装到另一个数据包内部叫Overlay)避免了DR的限制。
以上就是LVS三种模式真正的区别。