页描述符
我们都知道Linux的内存是分页的,在Linux 中每页的大小是4KB(大部分情况下),Linux需要记录下来每一页的状态,于是很显然地,需要一些额外的内存去存储这些状态信息,对于每一页内存,linux 需要用32个字节去管理(可能与最新版的linux有所出入),称之为页描述符,这些页描述符加起来大概占用不到整个内存的1%。
页描述符具体都干了什么?
从最初的Linux版本发展到现在,这个页描述符已经变得相当复杂,下面是一个简化版本
129 typedef struct pglist_data {
130 zone_t node_zones[MAX_NR_ZONES];
131 zonelist_t node_zonelists[GFP_ZONEMASK+1];
132 int nr_zones;
133 struct page *node_mem_map;
134 unsigned long *valid_addr_bitmap;
135 struct bootmem_data *bdata;
136 unsigned long node_start_paddr;
137 unsigned long node_start_mapnr;
138 unsigned long node_size;
139 int node_id;
140 struct pglist_data *node_next;
141 } pg_data_t;
这里面最重要的两个字段是
count:
代表该页的引用计数器,如果等于-1,则代表相应的页框是空闲,可以被分配给任意一个进程或者内核本身,如果大于0则代表已经被分配给了一个或者多个进程
flags:
描述该内存页的状态,标志说明
PG_locked页被锁定
PG_error在传输过程中发生I/O错误
PG_referenced刚刚访问过的页
PG_uptodate在完成读操作后置位
等等..
内存管理区
在实际的计算机体系结构中,Linux并不能对所有的内存一视同仁,因为现有的硬件约束不允许,主要来自以下两点
1、ISA总线的DMA直接内存存取处理器有严格的限制,只能对RAM的前16M寻址(因为ISA的总线只有16位)
2、在具有大容量RAM的现代32位计算机中,CPU不能 访问所有的物理内存,因为线性地址太小
为了应对这两种限制,Linux把每个内存节点的物理内存划分为3个管理区
1、ZONE_DMA,包含低于16M的内存页框
2、ZONE_NORMAL,包含低于16M且低于896M的内存页框
3、ZONE_HIGHMEM,包含高于896M的内存页框
想必有一个问题是无法避免的,为什么ZONE_NORMAL只包含到896M的内存?
我的个人理解是,Linux把地址空间分为用户地址空间和内核地址空间,在4GB的LInux机器上3GB用来做用户地址空间,1GB用来做内核地址空间(大部分情况下是这样,可以配置),内核有时需要访问用户地址空间中的物理地址,于是内核划分128M来用于映射用户地址空间的地址,如此一来1GB-128M=896MB。
这种情况在64位系统上有所不同,在64位系统上,LInux也只使用其中的48位用来寻址,也就是说, 总的虚拟地址空间为256TB( 2^48 )。这其中0000000000000000 - 00007fffffffffff(128TB)为用户空间, ffff800000000000 - ffffffffffffffff(128TB)为内核空间,可以看到内核空间之大,已经可以足够映射所有的物理内存了,所以在X86-64的Linux系统上,ZONE_HIGHMEM不存在。
还有一个名词叫做内存节点,这个东西很不常用,主要是有一种比较诡异的内存模型称之为Non-Uniform Memory Access (NUMA),在这种内存模型下,CPU对不同地址寻址的性能可能会不尽相同,LInux为了支持该内存模型,提出了内存节点的概念,把性能相近的地址范围划分在一个内存节点中。整个内存的数据结构如下图所示:
pg_data_t其实就是一个内存节点,在NUMA的机器上可能会有多个,在UMA(Uniform Memory Access)的机器上只有一个,NUMA至少我是没见过。
node_zones其实指的就是内存节点中的物理内存划分了,也就是我们上面讲的那些。
struct page就是页描述符
如有错误请指正。
参考:
《深入理解LInux内核》第三版
https://www.kernel.org/doc/gorman/html/understand/understand005.html