啊,这....小马曾经也很好奇这是个什么玩意,后面写GO的时候因为要自己实现DB层和redis层,才对它有了更进一步深入的了解。但要是正儿八经地说呢,也不知道该怎么描述。还是借助网络上各路大神的文章来抛玉引我这个砖吧。
一、什么是连接池
借用网文《如何实现一个连接池?一文带你深入浅出,彻底搞懂!》来说明吧,再次感谢作者。
注意小马加粗的文字部分。
“池”是一种非常形象化的描述,它是一种容器,做储存之用;在编程中我们往往使用数组、链表、队列、map来表达。实现的代码原理是比较好理解的。
“连接”是网络中用于传输数据的通道;“连接”才是我们要真正去使用的对象,而“池”是用来管理“多个连接”的一种方式。
如果没有用“池”来统一管理“连接”,“连接”将散布在程序各处;那为了使用方便,我们往往会在使用时建立连接,使用完毕后,就关闭连接。所以“连接池”给我们提供了使用“连接”的方便。
同时,池是做储存之用的,所以“连接池”中的“连接”肯定是已经建立好的长连接,比如tcp连接、websocket连接等,即取即用,用完放回(池里存储的实质是一堆已创建好的连接对象,参考这里)。如果没有真正理解“连接池”的本质,在面试中可能会出现“http连接池”的笑话!(但这里小马有个疑问,但是http的底层不是tcp吗,而且http从HTTP/1.1起,默认使用长连接了,既然长连接为什么不能有连接池的概念?换句话说,只要是长连接是不是都可以搞连接池)
根据下游类型,我们常见有数据库连接池、缓存连接池、服务连接池,如下图所示:
在编程中,我们还经常会碰到进程池(记得小马曾经有被问到swoole的进程模型,进程池)、线程池、协程池、内存池、对象池等。
二、为什么需要连接池
除了连接池能非常方便的对连接进行管理外,一句话,在高吞吐时连接池大大提高了数据传输的效率。
从两个方面说:
1、避免反复的三次握手和四次握手
长连接的建立需要进行三次握手,而连接的释放需要进行四次握手,这是发生在系统层面的两个动作,对于单条连接来说耗时微乎其微,但在高吞吐场景时,耗时则不能忽略。
所以连接池的即取即用和用完放回的特性,避免了大量三次握手和四次握手的无效耗时,节省了系统资源。
2、 增加并行车道,实现全双工并行,提高QPS
数据通信包括单工、半双工和全双工。单工通信如下图,数据只能从A到B,不符合访问下游服务的场景。
半双工通信如下图,数据可以从A到B,也可从B到A,但是同一时刻只能一个方向上进行数据传输,通道利用率是50%。
全双工通信如下图,可同时存在从A到B和从B到A的数据传输,通道的利用率是100%。长连接就是全双工通信。
在IO密集型的互联网应用中,一条全双工通信通道仍然无法满足数据吞吐的需求时,该如何解决?
在互联网性能测试指标中有这样一个公式:
QPS(吞吐量) = 并发数 / 平均响应时间
在平均响应时间不变的情况下,适度增加并发数可以提升吞吐量;所以采用多条全双工通信的方式可以在一定程度上(平均响应时间没有大幅增加)提高吞吐量,而连接池则就最好的实现方式。
总结一下:为什么需要连接池?
(1)方便管理连接;
(2)避免反复三次握手和四次握手;
(3)更好地实现全双工并行。
三、如何实现一个连接池
该连接池的“池”通过队列数据结构进行实现,队列先进先出的特性保证了使用连接的均衡性,每一条连接都可以均匀的被使用到。
连接池对外提供get()和free()两个API,get()用于从队首“出队”获取一条可用连接,free()用于将使用完的连接从对尾“入队”释放到队列中。
业务代码在低峰时会降低get()动作,所以连接池中的连接在长时间不用时会导致失效,此时保活线程在监测到get()的使用频率较低时,会模拟业务程序调用get()获取连接后发送心跳包,然后再通过free()将被保活的连接放回队列中,达到连接池中所有连接保活的目的。
那么小马的问题来了,我们平时使用的连接池lib,通常在连接使用完会调用一下close()函数,这个函数的真实动作是直接关闭连接吗?
显然根据本文的分析答案是否定的。
使用完后必须 con.close() 掉 ,使用连接池的话,执行 con.close 并不会关闭与数据库的 TCP 连接,而是将连接还回到池中去,如果不 close 掉的话,这个连接将会一直被占用,直接连接池中的连接耗尽为止。
至于是如何做到 con.close 并不是真正意义上的关闭连接?而是直接将连接还回到池中去? 非本文中重点不赘述,参考这里。】
四、扩展知识:高级连接池
高级连接池通常应用在微服务系统中,如下图:连接池连接下游多个节点。
高级连接池具备这样几个特性:
1、 高可用:下游任意一个server 宕机时,连接池会关闭相关无效连接,防止被client访问;
2、 高可扩展:下游增加一个server节点时,连接池会发现并建立到新server节点的连接,供client访问;
3、 负载均衡:连接池会根据下游server的服务能力的高低分配数据请求;
4、 中间件:当下游server是类MySQL数据库并分片时,连接池会将请求打在相应的数据节点上,并对数据进行聚合。
小马的疑问:微服务之间的PRC通信协议grpc也是需要处理连接池的吗?好像没有建立长连接吧?本文中的高级连接是针对长连接的地方而言吗?比如http2协议。
对于微服务用例,将HTTP / 1.1与HTTP / 2进行比较,通常HTTP / 1.1连接池要大得多(例如10倍) -50x),而不是HTTP / 2连接池,但出于上述原因,您仍然希望使用HTTP / 2连接池。
有待进一步探究...