端侧设备受限于成本和场景,其DDR内存和NPU内部cache(L1存储)是稀缺的珍贵资源。高效管理DDR内存是一种降成本的有效方法,而L1内存优化则可以增强NPU内部数据复用,减少NPU与DDR的数据交互,是降带宽的有效方法。降低网络inference的带宽需求有两个好处,一则提高模型推理时间的稳定性,减少带宽竞争带来的时间下降(芯片同时跑多业务时,可能会抢不到足够的带宽);二则提高带宽瓶颈(IO瓶颈,数据搬运时序无法被计算时序掩盖)算子的执行速度。
常见的内存分配算法(FirstFit/BestFit等)或多或少存在一些内存碎片,难以达到最佳效果。神经网络推理的内存场景与通常的内存场景有明显的区别,当网络结构确定后,推理所需的各层内存大小及内存申请和释放时间(算子id粒度)是确定的。内存大小即层间tensor大小,内存申请时间是tensor的生产者生产之前,内存释放时间是tensor被所有消费者消费完之后。因此神经网络推理场景的内存不是随机未知的,而是明确已知的。这样我们就可以开启上帝视角,将内存分配问题(来一个分配一个)转化为内存排布问题(全部已知,排布位置以达到最优)。
建立一个二维内存模型,从生命周期(算子粒度的时间)和大小两个维度描述推理过程需要的内存,其中生命周期维度又包含申请时间和释放时间。在这样一个二维空间里,内存被描述成一个个矩阵,内存管理问题就如何放置或排列这些矩阵,使得大小维度(内存占用)的峰值最小。这时候就可以采用类似二维装箱问题的一些解法了。
如上图模型,由5个单输入单输出的op组成的简单网络,m0-m5是推理过程需要管理的内存,其后的数字是内存大小。FirstFit算法分配时,由于m0<m2/m1+m2<m3导致了内存空隙,需要240大小的内存空间。
如上图二维内存模型,将内存结果转化为横轴为内存位置纵轴为算子时间的二维空间后,保持内存空间的生命周期和大小不变,通过变化内存位置尝试不同的位置排布以求最小内存峰值。简单点说,保持二维模型中内存形状不变高度不变,左右横移位置,获取最优内存结果。具体的软件实现有多种算法,比如按内存大小依次从大到小安排内存位置。优化后推理需要160大小的内存空间,这也是整个过程的内存最优解,没有任何导致空间膨胀的碎片。事后诸葛亮来说,FirstFit算法将m2分配到地址80而不是100,这是内存结果不好的原因。关键在于FirstFit只有眼前信息,无法预知分配到100是更优结果,而二维排布算法则开了上帝视角,具有全局内存信息,这也算一种信息差的降维打击吧hh。
文章首发于公众号:芯码路,关注获取更多技术文章。
参考文献:efficient memory management for deep neural net inference