网卡多队列
什么是中断
CPU在运行的时候遇到的一些事件, 这些事件有可能是线性程序本身出现的,那也有可能是在CPU的外部 甚至是整个系统的外部出现的事件。那么 这时就要求CPU强行中止现在正在运行的程序。 并且从一个新的存储器区域启动相应的程序去处理这些事件。 还有一点也很重要,就是在处理完这些事件之后,CPU需要恢复到原来的程序继续运行。 那这些事件就被称为中断或者异常。
将CPU运行程序所引发的特殊的事件称为软件中断, 而把外部的这些输入输出设备产生的事件称为硬件中断。
X86系统采用中断机制协同处理CPU与其他设备工作。长久以来网卡的中断默认由cpu0处理,在大量小包的网络环境下可能出现cpu0负载高,而其他cpu空闲。后来出现网卡多队列技术解决这个问题。
网络软中断
当网卡收到数据包时会产生中断,通知内核有新数据包,然后内核调用中断处理程序进行响应,把数据包从网卡缓存拷贝到内存,因为网卡缓存大小有限,如果不及时拷出数据,后续数据包将会因为缓存溢出被丢弃,因此这一工作需要立即完成。剩下的处理和操作数据包的工作就会交给软中断。高负载的网卡是软中断产生的大户,很容易形成瓶颈。
可以通过显示/proc/interrupts来显示中断信息:
[~]# cat /proc/interrupts
CPU0 CPU1 CPU2 CPU3
124: 125935088 0 0 0 IR-PCI-MSI-edge eth2-TxRx-0
125: 0 125840723 0 0 IR-PCI-MSI-edge eth2-TxRx-1
... ...
从图可以看到"124"、"125"分别为eth2-TxRx-0和eth2-TxRx-1的中断号。
如果有24个CPU的话,那么将会存在24个这样的中断号,从eth2-TxRx-0到eth2-TxRx-23。
每一个中断号表示一个网卡的工作队列,在有24个CPU的机器里,每个网卡需要存在24个网络队列。
通过将中断号绑定到多CPU并没有真正实现中断的分配。支持RSS的网卡,通过多队列技术,每个队列对应一个中断号,通过对每个中断的绑定,可以实现网卡中断在cpu多核上的分配。
中断绑定——中断亲和力(IRQ Affinity)
中断亲和力是指将一个或多个中断源绑定到特定的 CPU 核心上运行。
/proc/irq/[irq_num]/smp_affinity_list
:该文件存放的是CPU列表(十进制)。注意,CPU核心个数用表示编号从0开始,如cpu0,cpu1等
根据上图所示,124号中断为网卡eth2的第一个网络队列的中断号。我们将它绑定到CPU0上。
echo 0 >/proc/irq/124/smp_affinity_list
根据上面信息可以从/proc/interrupts获取CPU中断号信息,来写脚本实现自动绑定。
#!/bin/sh
#自动绑定多队列网卡中断
for item in `grep "TxRx" /proc/interrupts | awk '{print $1*1":"$NF}'`
do
irq=`echo $item|cut -d ":" -f1`
num=`echo $item|awk -F'-' '{print $NF}'`
#echo $irq" -> "$num;
echo "set IRQ[$irq] bonding to CPU[$num]"
echo $num > /proc/irq/$irq/smp_affinity_list
done
如何查看软中断的使用率
使用top命令,然后输入1
。
top - 15:37:48 up 54 days, 21:46, 1 user, load average: 0.00, 0.00, 0.00
Tasks: 121 total, 1 running, 120 sleeping, 0 stopped, 0 zombie
Cpu0 : 0.0%us, 0.0%sy, 0.0%ni, 99.3%id, 0.3%wa, 0.0%hi, 0.0%si, 0.3%st
Cpu1 : 0.0%us, 0.0%sy, 0.0%ni,100.0%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st
Cpu2 : 0.0%us, 0.0%sy, 0.0%ni,100.0%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st
Cpu3 : 0.0%us, 0.0%sy, 0.0%ni,100.0%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st
其中0.0%si
表示当前的软中断(software interrupt)的使用率。