优化追求
优化主要是内存使用与执行速度的双优化。
需根据硬件条件、输入作用域、精度、优化的时间和精力消耗、代码可读性、程序复杂度等全面评估。
优化总思路
方法:
- 找出程序中执行缓慢或占用内存较大的地方进行优化——程序内部循环重复调用、调用第三方库最该被优化;
途径:
经验查找;
Visual C++ 内置的性能工具 profiler 来找出程序中消耗最多内存的地方;
英特尔的 Vtune,它也能很好的检测出程序中运行最慢的部分;
优化123
整形数
尽量使用整形代替浮点型(避免浮点运行单元或浮点库的调用),如浮点型只需两位小数,可以乘100变成int;
尽量使用unsigned int,如果符号已知;
浮点数
尝试定点数代替浮点数;
浮点数尽量用float代替double;
先验函数
如 sin、exp、sqrt 和 log 是通过一系列的乘法和加法实现的(使用了精度扩展)。这些操作比通常的乘法至少慢十倍。
泰勒级数展开;
多项函数近似:
除法和取余
除法尽量换成乘法;
除法或取余可以循环减代替;
用移位代替除法(除数是2的幂次);
多个除法时,合并除法;
查表(更快,更能节省存储空间)或近似替代代替除法;
使用常量将除法转换为乘法,如
x=x/3.0
可以替换为x=x*(1.0/3.0)
;判断句中除法换成逻辑关系和乘法比较形式;
尽量使除数和被除数是无符号的整数(除法效率:整形>浮点型;无符号>有符号);
变量生命周期
由于处理器中寄存器是固定长度的,程序中数字型变量在寄存器中的存储是有一定限制的。
限定变量的使用数量:将较大的函数拆分为小而简单的函数也会达到很好的效果;
对经常使用到的变量采用寄存器存储。
局部变量
- 尽可能的不使用 char 和 short 类型的局部变量,使用int或unsigned int代替(避免编译器赋值时两次的移位操作)
指针
尽可能的使用引用或指针的方式传递结构数据,否则传递的数据会被拷贝到栈中,从而降低程序的性能;
确定不改变数据结构的值时,设置为const pointer;
尽量避免重复的指针链,如缓存指针链为局部变量:
Point3 *pos = p->pos
;
布尔表达式判断范围
x>min && x<max
可以转换为(unsigned)(x-min)<(max-min)
(如为负,换成无符号就肯定符合);尽量使用与0判断的形式,优化C编译器内部的比较指令;
条件语句
如果可以,用switch语句代替if-else语句,避免最后条件满足时else前面条件都运行;
if条件内如果是
&&
或||
,则应将容易判断的条件放在前面,这样后面条件有时可以避免判断;switch-case中case过多时,可以使用数组、映射等方法优化;
循环
使用计数到零的循环(递减形式到0,用0做判断)和简单的循环终止条件;
如果可以,合并循环;
循环中,总是调用函数,则将循环纳入到函数(调用函数时总是会有一定的性能消耗);
-
展开循环
循环迭代次数只有几次,那么可以完全,以便消除循坏带来的负担;
大的循环可以分解间断着展开,然后大步循环,减小循环次数;
尽早的断开循环,增加break环节;
函数设计
尽量保证函数使用少于四个参数。这样就不会使用栈来存储参数值;
将参数放入一个结构体并通过指针传入函数,这样可以减少参数的数量并提高可读性;
减少全局变量的使用,使用 static 修饰变量为文件内访问;
尽量使用整形兼容类型(char,shorts,ints 和 floats 都占用一个字);
-
多使用叶子函数(内部不调用其他函数的函数),消耗小,高效;
避免调用其他函数:包括那些转而调用 C 库的函数(比如除法或者浮点操作函数);
简短的函数使用__inline 修饰(调用处直接替换为函数体。代码调用函数更快,但增加代码的大小,特别在函数本身比较大而且经常调用的情况下);
使用 #define 宏取代常用的小函数;
不使用递归(需要太多的函数调用);
一维数组比多维数组更快;
加法操作比乘法快,乘法比除法快;
如果你的库支持 mallopt () 函数(用于控制 malloc),尽量使用它。MAXFAST 的设置,对于调用很多次 malloc 工作的函数由很大的性能提升;
将编译器优化选项打开!!!