IO多路复用详解
IO多路复用的实现方式
我们这里只讨论linux两个典型的实现,select和epoll
- select 方式,这种方式在每个系统平台都有实现,优点是,实现逻辑简单,跨屏台性非常好。缺点是性能略差,并且限制最大监视的文件描述符为1024个
- epoll方式,这种方式是linux平台下,对select的增强,优点是性能好,几乎没有最大限制。缺点是跨平台性差。
select和epoll是怎么实现多路复用的能?为什么epoll比select性能要好呢?他们的区别在哪里呢?
Socket通信的流程
从socket已经建立链接以后说起。
- 网卡接收到数据,把数据写入到内存中。
- 网卡发起cpu中断,告诉cpu数据已经准备好了,并且告诉cpu执行什么中断程序。
- 中断程序将收到的数据写入socket缓冲区中,并且唤醒用户进程处理数据。
普通的Socket管理
首先了解一下Socket,socket的主要结构如下:
在创建Socket的时候,会创建发送缓冲区,接收缓冲区和等待队列。其中接收缓冲器和发送缓冲区就是处理数据的收发,等待队列就是存储在数据准备好以后要唤醒的进程。创建好Socket以后,会在文件列表中管理Socket。
举例了解一个普通Socket在整个的管理上的结构如下:
系统在运行的时候,为了调度进程,会维护不同状态的进程的队列,假设在进程运行队列中引用的进程都会轮询执行。进程A在运行中,创建了一个Socket,并且要从Socket中读取数据,此时创建了一个Socket对象,并且交给文件列表管理,同时把进程A加入到Socket的等待队列,此时进程A不在参与轮询执行,也就进入了阻塞等待。当数据准备好以后,终端程序会移除Socket中等待队列引用的进程A,这是进程A被唤醒,可以开始处理数据。
Select的实现
普通的Socket在接收数据的时候,只能管理自己的Socket以及对应的进程,为了提高效率,实现了select系统调用,用来一次轮询多个文件描述符。
基本的模型如图:
- 把所有要监听的Socket放到一个数组中。
- 调用系统调用select,传入这个数组,循环把当前进程添加到每个Socket的等待队列中,程序进入阻塞状态。
- 如果有Socket状态需要处理,那么移除所有Socket数组中等待队列的引用,唤醒程序,程序中轮询所有的Socket,判断状态,做出相应的处理。
- 然后重复调用select方法。
缺点:
- 每次调用时都要在内核态和用户态之间拷贝一个很大的文件句柄数组。
- 每次处理都要对数组轮询好几次,循环增加等待队列,循环移除等待队列,循环检查Socket状态。
- 所以select监控文件句柄的上限一般默认只有1024个。
Epoll的实现
epoll的模型如下:
在epoll模型中增加了一个eventpoll对象,这个对象是在创建epoll的时候创建的,对象中主要的数据结构有rbr、rdlist、等待队列。
rbr中存储了需要监控的所有Socket的,rdlist存储了有状态变化的socket列表,等待队列存储了需要唤醒的队列。
在创建epoll以后,需要调用epoll_ctl系统调用,想eventpoll的rbr中添加需要监控的socket对象,在调用epoll_wait自动调用的时候,把当前进程放入了eventpoll的等待队列中,进入阻塞状态。当有socket状态发生变化以后,会把socket加入到rdlist列表中,并唤醒等待队列中的进程。
为了epoll能处理更多的文件句柄,rbr采用了红黑树的数据结构,在管理很多socket的时候也能有不错的性能,同时rdlist由于需要频繁的增加删除,所以采用了双向链表的数据结构。
优点:
- 因为epoll的socket管理和阻塞等待分别对应,epoll_ctl和epoll_wait两个系统调用,在第一次加入socket以后,后续的阻塞等待就不用再次传入所有的socket列表了,不用频繁的在用户态和内核态之间拷贝数据。
- 采用红黑树和双向链表的数据结构,能够管理大量的文件描述符。