分段已经了解清楚了,但linux不仅使用了分段还是用了分页,分段的好处在于因为是逻辑地址,可以远大于实际使用的内存大小。这样在分段的时候就可以给每个进程都分配很大并且是隔离的空间,像0.11版本的linux就给每个进程64M的逻辑地址,每个进程使用内存就好像有个从0开始到64M的这么大的真实内存一样。linux按进程每64M为边界划分出不同的逻辑区间,这样就用分段从物理层面隔离开来各个进程。
分页的好处是可以更高效的使用内存,还可以实现按需加载,一个页面大小是4KB,不同的数据被打散到各个页面里,而不一定非要使用连续的物理空间。又因为有缺页异常机制,可以实现懒加载,进程只会加载使用到的内存,未使用的还在外存中,但代码访问了一个不在内存中的地址时,会触发cpu的缺页异常,linux的缺页中断程序会从对应的外存中同步数据到内存中。
分页的实现其实并不复杂,经过分段后的地址是一个32位的逻辑地址,linux使用一级目录方式,32位的地址被拆成3部分,后12位代表页内偏移量,前20位被分为2个10位,第一个10位代表页目录的索引号,第二个10位代表页标项的索引号,下图所示
目录项和页表项都是占用32位(4byte)空间,又页目录占用一页大小,所以页目录共含有4K/4=1024,每个页目录又指向一页页表项,一个页表项则最终指向一个使用的内存页,所以使用一个目录页共可以寻址102410244K=4G空间,这在linux0.11版本足够使用了。当然到了现在,64位的时候,真实内存都比4G要大了,linux也使用了6,7级的分页,也早已不再使用一张页目录了。
表项结构
表项占用32位,20位作为页帧地址,当是目录项的时候,代表页表项的基址,当是页表项的时候则代表物理地址的基址。
AVL和U/S,R/W都是做权限控制用的
D代表dirty标识页是否被修改多,A代表被使用过,内核定时扫描这个查询页的使用次数来选择淘汰最久不使用的页。
P代表页是否有效,当P=0时,代表页不存在,则会触发缺页,当P=0时,其他位可以自由使用,内核可以在其中存储一些数据,比如被替换出去的不活跃页,可以标记它的信息供内核重新加载回内存使用。
代码
有一个根据地址算页目录指针的代码,是看了赵炯博士的注释才明白的,想了很久才搞懂,明白之后才发现c语言的指针真是强大,基本上有了汇编对内存操作的自由度了。按代码的逻辑32位地址应该是右移22位取前10位作为目录项索引,但右移22位后其实可以当做数组的索引号,但是目录中每个项占用4个字节,索引号要乘以指针长度才是真的地址,所以就变成了(from>>22)<<2,当然了最后要用ffc来与操作屏蔽最后两位
// 下面一句计算起始目录项。对应的目录项号=from>>22,因每项占4 字节,并且由于页目录是从
// 物理地址0 开始,因此实际的目录项指针=目录项号<<2,也即(from>>20)。与上0xffc 确保
// 目录项指针范围有效。
dir = (unsigned long *) ((from>>20) & 0xffc); /* _pg_dir = 0 */
疑点
共享内存好像和fork的写时复制一样,都是写保护,这样是不是如果对一个共享页面写操作也会发生缺页执行复制操作了?