Multi-Banking Cache功耗节省：为什么拆成小Bank更省电

缓存Bank化不只是为了提升带宽，更是为了省电。把大缓存拆成多个小Bank，每次只激活需要的部分，功耗能降30%以上。

1. 单Bank的功耗噩梦

想象一个32KB的L1缓存，单Bank设计。每次访问，哪怕只读4字节，也要：

激活整个32KB的Wordline（字线）
驱动所有Bitline（位线）的预充电
翻转整个Tag阵列的比较器

这就像为了开一盏灯，点亮整栋楼的照明。单次访问的动态功耗可能高达几纳焦（nJ），其中90%浪费在无关电路上。

2. 细粒度激活：只开需要的灯

Multi-Banking的核心思想是局部激活。32KB拆成4个8KB的Bank，访问时只激活1个Bank，其他3个保持关闭。

2.1 门控时钟（Clock Gating）

时钟树是缓存功耗的大头，通常占动态功耗的40-50%^[1]。每个Bank有自己的时钟，不访问时关闭：

// Bank级时钟门控
module bank_clock_gate (
    input clk,
    input bank_select,      // Bank被选中
    input access_valid,     // 访问有效
    output gated_clk
);

// 只有当Bank被选中且访问有效时，时钟才通
assign gated_clk = clk & bank_select & access_valid;

endmodule

这样空闲Bank的触发器不翻转，动态功耗接近零。

2.2 电源门控（Power Gating）

更激进的优化是切断空闲Bank的电源。ARM Cortex-A8的L2缓存支持1-4 Bank动态配置^[1]，低负载时只开1个Bank，其他3个完全断电。

代价是唤醒延迟（从断电到恢复需要几百纳秒），但省电效果显著。

3. 电容负载：小Bank的物理优势

功耗公式： $P = \alpha \cdot C \cdot V^2 \cdot f$

其中C是电容，V是电压，f是频率。Multi-Banking通过减小C来降低P。

3.1 Bitline电容对比

配置	Bank容量	Bitline长度	电容	单次访问能量
单Bank	32KB	长（32KB行数）	高	100%
4 Bank	8KB	短（1/4长度）	低	~25%
8 Bank	4KB	更短	更低	~15%

Bitline是SRAM里电容最大的部分，因为每行都挂一个传输管。Bank越小，Bitline越短，电容越小，充放电能量越少。

3.2 Wordline驱动

Wordline要驱动一行所有SRAM单元的栅极，负载电容也很大。小Bank的行数少，Wordline短，驱动功耗低。

4. 单端口vs多端口：晶体管数量

有人可能想：既然要并行访问，为什么不用True Multi-port SRAM（真正多端口）？

4.1 面积与功耗对比

类型	读端口	写端口	单元晶体管数	相对功耗
单端口	1	1	6T	1x
双端口（1R1W）	1	1	8T	1.5x
双端口（2R）	2	0	8T	1.8x
True Dual-port	2	2	10-12T	2.5x

Multi-Banking用多个单端口Bank模拟多端口，每个Bank还是6T单元，比True Multi-port省40-60%功耗。

4.2 为什么不用多端口

True Multi-port需要：

每个单元增加晶体管（8T-12T vs 6T）
更多Bitline和Wordline
复杂的读写冲突检测电路

功耗和面积都爆炸。所以实际芯片都用Bank化实现并行，而不是多端口。

5. 实际芯片数据

5.1 ARM Cortex-A8

Cortex-A8的L2缓存支持1-4 Bank软件可配置^[1]：

Bank配置	动态功耗	相对单Bank节省
1 Bank（全关）	基准	0%
2 Bank	~65%	35%
4 Bank	~50%	50%

注意：4 Bank全开时，单次访问还是只激活1个Bank，所以比单Bank设计省电。但如果4个Bank同时被访问（冲突），功耗会上升。

5.2 Intel Core i7

Intel Core i7的L1D是4 Bank设计^[2]：

每个Bank独立的时钟门控
单周期内最多2个Bank同时激活（支持2个load）
相比无门控设计，动态功耗降低20-25%

L2是8 Bank，门控粒度更细，空闲时功耗更低。

5.3 学术研究数据

ISCA 2015的研究^[3]测量了Bank冲突对功耗的影响：

Bank冲突导致重复访问，增加15-20%动态功耗
良好的地址分布（无冲突）下，8 Bank比4 Bank再省10%功耗

这说明Bank数不是越多越好，要在冲突概率和激活粒度间权衡。

6. 工艺演进的影响

6.1 先进工艺的漏电问题

7nm/5nm工艺下，晶体管静态漏电功耗占比升高。Multi-Banking通过电源门控关闭空闲Bank，显著降低静态功耗。

工艺节点	动态功耗占比	静态功耗占比	Multi-Banking优势
28nm	80%	20%	主要省动态功耗
14nm	60%	40%	动态+静态都省
5nm	40%	60%	主要省静态功耗

6.2 FinFET的电容特性

FinFET工艺（16nm以下）的栅极电容更大，但驱动能力更强。小Bank的短Bitline优势更明显，因为：

电容减小带来的收益 > 驱动能力增加的收益
局部激活减少的开关次数 > 单次开关能量

7. 多级缓存的协同

7.1 L1/L2/L3的Bank策略

桌面端 CPU

层级	典型Bank数	功耗优化重点
L1D	4-8	单周期激活，快速门控
L2	8-16	多核共享，细粒度控制
L3	16-32	电源门控，空闲时断电

L3通常用更激进的电源门控，因为：

容量大（8-64MB），空闲区域多
访问频率低，唤醒延迟可接受
多核共享，不同核访问不同Bank

7.2 与DVFS的协同

Dynamic Voltage and Frequency Scaling（动态电压频率调节）配合Multi-Banking：

低负载时：降频+关闭部分Bank
高负载时：升频+开启全部Bank

ARM的big.LITTLE架构中，小核（LITTLE）的L2可能只有2 Bank，大核（big）有4 Bank，根据任务动态切换。

8. 设计权衡：Bank数的甜点区

Bank数	动态功耗	静态功耗	冲突概率	面积开销	适用场景
1	高	低	0%	低	嵌入式实时系统
4	中	中	25%	中	桌面CPU L1
8	低	中	12%	中高	服务器CPU L2
16	很低	高	6%	高	GPU/加速器

关键洞察：

动态功耗随Bank数线性下降（理想情况下）
静态功耗随Bank数上升（更多控制电路）
冲突概率随Bank数下降，但收益递减

实际设计中，4-8 Bank是甜点区，平衡了功耗、性能和面积。

9. 总结

Multi-Banking Cache的功耗节省来自三个层面：

机制	原理	效果
细粒度激活	只开需要的Bank，其他门控	省30-50%动态功耗
低电容负载	小Bank的Bitline/Wordline短	省50-70%访问能量
单端口优化	避免True Multi-port的高功耗	省40-60%晶体管功耗

实际芯片数据：

ARM Cortex-A8 L2：4 Bank比单Bank省35%动态功耗
Intel Core i7 L1：Bank级门控省20-25%功耗
先进工艺（5nm）下，静态功耗节省更显著

理解这些机制，做芯片设计时就能在功耗、性能、面积间找到平衡。

参考

ARM Cortex-A8 Technical Reference Manual. L2 Cache Bank Structure and Power Management. ↩ ↩ ↩
Computer Systems Engineering, SJTU. Multibanked Caches Lecture Notes. ↩
ISCA 2015. Cost-Effective Speculative Scheduling in High Performance Processors. ↩

Multi-Banking Cache功耗节省：为什么拆成小Bank更省电