我们先来看一段非常简单的代码
for i in range(10000):
x[i] = x[i] + 10
看到这代码,肯定有小伙伴会有疑问,这么简单的代码你告诉我竟然可以优化???
不急不急,且听我慢慢分析:
首先我们要意识到,这个循环体循环了10000次。
那么加速的其中一个关键就是减少循环次数,因为每次循环结束之后本质上都是一个分支指令的判断,判断这次循环是否结束。如果是则跳出循环,进行下一个代码块的执行,否则继续循环。
我们可以充分利用cpu内的寄存器。
程序在执行前,编译器会自动给我们的加法指令分配各个不同的寄存器,避免指令流水线的数据冲突,这样循环内多路并行也降低了时间开销。
得此,优化后我们的程序如下:
for i in range(0, 10000, 5):
x[i] = x[i] + 10
x[i+1] = x[i+1] + 10
x[i+2] = x[i+2] + 10
x[i+3] = x[i+3] + 10
x[i+4] = x[i+4] + 10
经过测试,优化后的程序所花时间为69ms,而未经优化的程序时间为81ms。
饱受leetcode超时困扰的小伙伴,这样的小trick也许能帮助你们侥幸过关!
如果对这些优化感兴趣的小伙伴,可以参考计算机体系结构相关内容学习。