除法是CPU最慢的操作之一。传统设计里,除法单元独占24+周期,期间其他指令只能干等。流水线化让除法也能像加法一样流水执行,大幅提升吞吐量。这篇...
CPU只有16个整数寄存器(x86-64),但现代处理器内部有上百个物理寄存器。寄存器重命名技术把程序看到的"逻辑寄存器"动态映射到"物理寄存器...
流水线让CPU同时执行多条指令,但指令之间会打架。结构冒险抢硬件,数据冒险抢数据,控制冒险抢方向。这篇聊聊这三种冒险的本质和应对方法。 1. 结...
ROB:现代CPU的"指挥中心" 超标量处理器每周期发射多条指令,但程序要求顺序执行的效果。Reorder Buffer(ROB,重排序缓冲区)...
流水线让CPU同时执行多条指令,但数据依赖会卡住流水线。转发(Forwarding/Bypassing)技术通过把结果直接传给需要它的指令,避免...
CPU缓存用SRAM,内存用DRAM,这是计算机体系结构的基本常识。但为什么不用SRAM做主存?DRAM这些年在忙什么?这篇从物理原理到产业现实...
缓存优化是计算机体系结构的核心课题。《计算机体系结构:量化研究方法》中总结了10种高级优化技术,每种都在性能、功耗、复杂度之间做取舍。 1. 降...
矩阵乘法是科学计算的核心,但 naive 实现性能惨不忍睹。问题出在缓存——三个大矩阵来回折腾,L1缓存根本装不下。缓存分块(Cache Blo...
CPU等内存是最浪费时间的事。硬件预取(Hardware Prefetching)让CPU在需要数据之前就把它从内存抓到缓存,等真正要用的时候,...