影响流水线效率的因素
影响RISC CPU 性能的因素
Iron Rule: Runtime = 程序指令数*CPI
Pipeline CPI = Ideal pipeline CPI + Structural stalls + RAW stalls + WAR stalls + WAW stalls + Control stalls
程序的相关性
- 数据相关(真相关):导致RAW
- 名字相关:会导致WAW和WAR
- 控制相关:条件转移
程序的相关性容易引起流水线堵塞,可以通过软件和硬件的方法避免堵塞或降低堵塞的影响 - 静态方式:编译调度(如循环展开)
- 动态调度:乱序执行,需要等待的执行不影响其他指令
数据相关
- 定义:指令j数据想关于指令i
*指令j使用了指令i产生的结果,或
*指令j数据相关于指令k,指令k数据想关于指令i - 数据相关的指令不能并行执行
-
寄存器的数据相关比较容易判断
名字相关
两条指令使用相同名字的寄存器,但不交换数据
- 逆相关:指令j写指令i所读的存储单元且i先执行。逆相关会导致WAR相关
- 输出相关:指令j与指令i写同一份单元且i先执行。输出相关会导致流水线WAW相关
寄存器的名字相关可以通过寄存器重命名来解决
指令调度技术
编译器的静态调度:编译器分析程序中的相关性,并针对目标流水线进行代码优化,以避免程序执行时由于相关引起阻塞
- 相关不一定阻塞,主要隔开足够远
- 在一个流水线上引起阻塞,在另一个流水线上不一定引起阻塞,所以编译优化与机器有关
根据代码下面的表格对程序进行展开,可知每次循环需要9个cycle
当改变指令次序每次循环需要6个时钟周期
改变指令次序
-
将SD指令放入Delay Slot中偏移量也发生变化
展开循环+寄存次重命名
将循环展开四次之后(假设R1的值是4的倍数)如下图左侧,之后再对寄存器进行重命名进而减少数据相关性,得到图右侧的代码
在展开过程中注意SD偏移量的变化
这4个循环每条指令1个周期,外加LD与算数运算需要1个stall,算数指令于SD指令之间需要2个stall总体时间为27个cycle,并可得一次循环平均需要6.8个cycles
展开循环+改变执行次序
- 注意把SD与SUBI交换次序时偏移量的变化
- 注意SD与LD交换次序不会影响正确性
-
每4个循环需要14个cycles,每个循环3.5cycles
增加发射宽度
- 循环展开5次
- 定点和浮点并行
-
5个循环需要12cycles,每个循环2.4cycles
这个是好久之前看的了,今天有空就把ppt都粘成博客了,下次再写动态调度(计分板+tomasulo)