1 起因
工作需要,简单熟悉下ncnn(腾讯的一个神经网络前向计算框架)相关的源码。看到有关内存对齐的一段代码,忍不住分析一番。
涉及到C语言的指针、内存,总会让人有些头大,但我们又不得不承认,它也确是非常有趣。
2 源码 & Demo & 问题
nccc git地址
https://github.com/Tencent/ncnn
简单Demo
将 allocator.h 中的 alignPtr 和 fastMalloc 两个函数提取出来,做一个简单的调用Demo,具体如下。
Demo & 问题
如果对上述问题感兴趣,你可以继续往下看了:)
3 分析
Step n 和 第2部分代码中的是一一对应的哦!
3.1 Step1 : 分配内存
unsigned char* udata = (unsigned char*)malloc(size + sizeof(void*) + MALLOC_ALIGN);
内存分配
-
问题1:为什么要多分配 sizeof(void *) 大小的内存?(图中8B部分)
因为设计者期望保存对其前的内存指针。 -
问题2:为什么要多分配 MALLOC_ALIGN 大小的内存?(图中16B部分)
因为对齐单位是16(MALLOC_ALIGN),而对其后,数据指针不一定指在分配的内存的起始位置,为了保证对其后仍然有100B目标内存可用,要+16。
3.2 Step2 : 对其方法调用分析
unsigned char** adata = alignPtr((unsigned char**)udata + 1, MALLOC_ALIGN);
关于udata+1
-
问题3:为什么要将udata转换成(unsigned char **)?
1)现在udata是char *类型,假设udata指向的内存是0x0000000102803030,那么udata+1 = 0x0000000102803031, 而(unsigned char**)udata + 1 = 0x0000000102803038,我们期望在内存地址的开始初留出一个存放指针的空间(8B),所以选择后者。
2)我们要使用留出的8B的空间存储对齐前的内存地址,而对齐前的指针的类型(在这个函数体中)是unsigned char *,那么将内存看做一个unsigned char * 的数组的指针,再以此存储我们的对齐前内存地址(unsigned char *类型),多么的优雅,多么的符合概念啊!
Step3 : 实现偏移
template<typename _Tp> static inline _Tp* alignPtr(_Tp* ptr, int n=(int)sizeof(_Tp)) {
return (_Tp*)(((size_t)ptr + n-1) & -n);
}
实现地址偏移
-
问题4:_Tp是什么类型?
unsigned char * -
问题5:& -n 如何理解?
1)目的:n = 16 (B),这边的目的是让内存指向的地址为16的整数倍
2)目的达成分析: 16的二进制值是 0001 0000,-16的二进制值是16二进制值的各位取反(...0001 1111),再加1(...1111 0000)。如果一个地址是64位的,这么操作后就是0xffff ffff ffff fff0,与目标数字按位与后,自然就是一个能被16整除的数字了。
3)举一反三: 不仅16,2^n的数字都可以这么操作哦 -
问题6:什么是&,什么是按位与
……这个……不解释……
Step4 : 设置未对齐前的内存地址
adata[-1] = udata;
设置对齐前内存地址
-
问题7:为什么要设置?
宝贝儿,因为内存释放的时候要用~ 代码如下,不解释咯!
static inline void fastFree(void* ptr) {
if (ptr) {
unsigned char* udata = ((unsigned char**)ptr)[-1];
free(udata);
}
}
Step5 : 返回用户关注的内存地址
return adata;
image.png
用户拿到的内存指针指向的是数据的开始位置哦!
-
问题8:为啥要内存对齐,而且为了对齐还浪费了部分内存?
简单来说,为了提高运算速度,更深层的原因比较复杂,不赘述咯。
4 草草结束
完~