240 发简信
IP属地:安徽
  • 除法流水线化:从24周期 stall 到每周期发射

    除法是CPU最慢的操作之一。传统设计里,除法单元独占24+周期,期间其他指令只能干等。流水线化让除法也能像加法一样流水执行,大幅提升吞吐量。这篇...

  • 寄存器重命名:让CPU摆脱假依赖的束缚

    CPU只有16个整数寄存器(x86-64),但现代处理器内部有上百个物理寄存器。寄存器重命名技术把程序看到的"逻辑寄存器"动态映射到"物理寄存器...

  • 流水线三大冒险:结构、数据、控制

    流水线让CPU同时执行多条指令,但指令之间会打架。结构冒险抢硬件,数据冒险抢数据,控制冒险抢方向。这篇聊聊这三种冒险的本质和应对方法。 1. 结...

  • ROB(Reorder Buffer):重排序缓冲区

    ROB:现代CPU的"指挥中心" 超标量处理器每周期发射多条指令,但程序要求顺序执行的效果。Reorder Buffer(ROB,重排序缓冲区)...

  • 流水线数据冒险与转发:x86和ARM的不同打法

    流水线让CPU同时执行多条指令,但数据依赖会卡住流水线。转发(Forwarding/Bypassing)技术通过把结果直接传给需要它的指令,避免...

  • SRAM与DRAM:速度 vs 容量的永恒博弈

    CPU缓存用SRAM,内存用DRAM,这是计算机体系结构的基本常识。但为什么不用SRAM做主存?DRAM这些年在忙什么?这篇从物理原理到产业现实...

  • 10种高级缓存优化技术

    缓存优化是计算机体系结构的核心课题。《计算机体系结构:量化研究方法》中总结了10种高级优化技术,每种都在性能、功耗、复杂度之间做取舍。 1. 降...

  • 缓存分块(Cache Blocking):矩阵乘法的救命稻草

    矩阵乘法是科学计算的核心,但 naive 实现性能惨不忍睹。问题出在缓存——三个大矩阵来回折腾,L1缓存根本装不下。缓存分块(Cache Blo...

  • 硬件预取:让CPU提前把数据准备好

    CPU等内存是最浪费时间的事。硬件预取(Hardware Prefetching)让CPU在需要数据之前就把它从内存抓到缓存,等真正要用的时候,...