通过malloc()/free()或C++的全局new/delete运算符动态分配内存——又称为堆分配——通常是非常慢的。低效主要来自两个原因。首先,堆分配器是通过的设施,它必须处理任何大小的分配请求,从1字节到1000兆字节亦然。这需要大量的管理开销,导致malloc()/free()函数变得比较缓慢。其次,在多数操作系统上,处理请求,再切换至原来的程序,这些上下文切换可能消耗非常多的时间。
常见的开发经验:任何游戏引擎都无法避免动态内存分配,所以多数游戏引擎会实现一个或多个定制分配器。好处有二:第一,定制分配器从预分配的内存中完成分配请求,这样,分配过程都在用户模式下执行,完全避免了进入操作系统的上下文切换。第二,通过定制分配器的使用模式做出多个假设,定制分配器可以比通用的堆分配器高效得多。
1、基于堆栈的分配器 2、双端堆栈分配器 3、池分配器 4、含对齐功能的分配器 5、单帧和双缓存内存分配器
在支持虚拟内存的操作系统上,内存碎片并不是大问题。虚拟内存系统把不连续的物理内存块——每块称为内存页——映射至虚拟地址空间,使内存页对于应用程序来说看上去是连续的。在物理内存不足时,久没使用的内存页会写进磁盘,有需要时再重载到物理内存。多数嵌入式设备并不能负担得起虚拟内存的实现。有些当代游戏机,虽然技术上支持虚拟内存,但由于其导致的开销,多数游戏引擎不会使用虚拟内存。
前置递增++p和后置递增p++。前置递增运算符对运算子递增后,再传回其值;后置递增运算符则传回之前未递增的值。所以前置递增只需简单得把指针或迭代器就地递增,再传回它的参数。后置递增必须先备份旧值,把指针或迭代器递增,并传回之前的备份。对于指针或整数索引而言,除了在紧凑的循环中,一般不会造成大问题。然而,对迭代器来说,后置递增可能导致效能损失,因为运算子备份及返回旧值时,或必须进行复杂的迭代器对象构建及复制。
存取主系统内存是缓慢的操作。通常需要几千个处理器周期才能完成。为了降低读/写主内存的平均时间。现代处理器会采用高速的内存缓存。
缓存是一种特殊的内存,CPU读/写缓存的速度比主内存快得多。当首次读取某区域的主内存,该内存小块会载入高速缓存。这个内存块单位称为缓存线,缓存线通常介于8至512字节,具体值视微处理器架构所定。若后来再读取内存,而该数据已在缓存中,那么数据就可以直接从缓存载入寄存器,这比读取主内存快的多。仅当要求的数据不在缓存中,才必须存取朱内存。这种情况名为缓存命中失败。每当出现缓存命中失败,程序便要被逼暂停,等待缓存线自助内存更新后才能继续进行。
一级及二级缓存:在CPU芯片上的一级缓存,在主板上的二级缓存,近来二级缓存也移至CPU芯片上。
指令缓存:预载即将执行的机器码; 数据缓存:用来加速自主内存读/写数据。程序变慢,有可能因为指令缓存命中失败,或是数据缓存命中失败。
避免数据缓存命中失败最佳办法:把数据编排进连续的内存块中,尺寸越小越好,并且要顺序访问这些数据。这样便可以把数据缓存命中失败的次数减至最少。当数据是连续的(不会在内存中跳来跳去),那么单次命中失败便会尽可能最多的相关数据载入单个缓存线。若数据量少,更可能塞进单个缓存线。
由于编译器和链接器决定了代码的内存布局,会给人无法控制指令缓存命中失败。其实,C/C++链接器有一些简单规则:
1、单个函数的机器码几乎总是置于连续的内存(内联函数除外)。
2、编译器/链接器按函数在翻译单元源代码(.cpp文件)中的出现次序排列内存布局。
避免指令缓存命中失败的经验法则:
1、高效能代码的体积越小越好,体积以机器码指令数目为单位。(编译器和链接器会负责把函数置于连续内存中)。
2、性能关键的代码段落中,避免调用函数。
3、若要调用某函数,就把该函数置于最接近调用函数的地方,最好是紧接调用函数的前后,而不要把该函数置于另一翻译单元(因为这样会完全无法控制两个函数的距离)。
4、慎重使用内联函数。内联小型函数能增加效能。然而过多的内联函数会增大代码体积,使得性能关键代码再不能完全装进缓存。假设有一个处理大量数据的紧凑循环,若循环内的代码不能完全装进缓存,每个循环迭代便会产生至少两次指令缓存命中失败。遇到这种情况,最好重新思考算法或代码实现,看看能否减少关键循环中的代码量。