朱小小小虓 - 简书

IP属地：广西

除法流水线化：从24周期 stall 到每周期发射
除法是CPU最慢的操作之一。传统设计里，除法单元独占24+周期，期间其他指令只能干等。流水线化让除法也能像加法一样流水执行，大幅提升吞吐量。这篇...

35 0 0
寄存器重命名：让CPU摆脱假依赖的束缚
CPU只有16个整数寄存器（x86-64），但现代处理器内部有上百个物理寄存器。寄存器重命名技术把程序看到的"逻辑寄存器"动态映射到"物理寄存器...

40 0 0

流水线三大冒险：结构、数据、控制
流水线让CPU同时执行多条指令，但指令之间会打架。结构冒险抢硬件，数据冒险抢数据，控制冒险抢方向。这篇聊聊这三种冒险的本质和应对方法。 1. 结...

51 0 0
ROB（Reorder Buffer）：重排序缓冲区
ROB：现代CPU的"指挥中心" 超标量处理器每周期发射多条指令，但程序要求顺序执行的效果。Reorder Buffer（ROB，重排序缓冲区）...

57 0 0
流水线数据冒险与转发：x86和ARM的不同打法
流水线让CPU同时执行多条指令，但数据依赖会卡住流水线。转发（Forwarding/Bypassing）技术通过把结果直接传给需要它的指令，避免...

29 0 0
SRAM与DRAM：速度 vs 容量的永恒博弈
CPU缓存用SRAM，内存用DRAM，这是计算机体系结构的基本常识。但为什么不用SRAM做主存？DRAM这些年在忙什么？这篇从物理原理到产业现实...

66 0 0
10种高级缓存优化技术
缓存优化是计算机体系结构的核心课题。《计算机体系结构：量化研究方法》中总结了10种高级优化技术，每种都在性能、功耗、复杂度之间做取舍。 1. 降...

64 0 0

缓存分块（Cache Blocking）：矩阵乘法的救命稻草
矩阵乘法是科学计算的核心，但 naive 实现性能惨不忍睹。问题出在缓存——三个大矩阵来回折腾，L1缓存根本装不下。缓存分块（Cache Blo...

51 0 0
硬件预取：让CPU提前把数据准备好
CPU等内存是最浪费时间的事。硬件预取（Hardware Prefetching）让CPU在需要数据之前就把它从内存抓到缓存，等真正要用的时候，...

54 0 0