最近在看《程序员的自我修养》。
在171页,有这样的一段话:
比如我们拿前面的程序“SectionMappping.elf"做例子,看看各个段的虚拟地址是怎么计算出来的。为什么VMA1的起始地址是0x080B99E8?而不是0x080B89E8或干脆是0x80B9000?
确实蛮有意思的一个问题,当时还没有反应过来,所以继续往下看:
VMA0的起始地址是0x08048000,长度是0x709E5,所以他的结束地址是0x080B89E5。而VMA1因为跟VMA0的最后一个虚拟页面共享一个物理页面,并且映射两遍,所以它的虚拟地址应该是0x080B99E5,又因为段必须是4字节的倍数,则向上取整至0x080B99E8。
昨天晚上看到这里,完全没看懂,反反复复纠结了半天,差点错过最后一班回去的班车。
先来解释一下什么是vma。
一个可执行文件被加载到进程的虚拟空间中时,需要一种映射关系,linux中将进程虚拟空间中的一个段叫做虚拟内存区域(Virtual Memory Area)。操作系通过给进程空间划分出一个个VMA来管理进程的虚拟空间;基本原则是将相同权限属性的,有相同影像文件的映射成一个VMA。
虚拟内存需要页映射机制来和物理内存建立映射关系,而每个物理页的大小为4096字节(32位),所以虚拟内存需要按4096进行对齐。
有了这些准备之后,我们回到书中的问题,VMA0的起始地址为0x08048000,长度为0x709E5,所以结束地址为:
0x08048000 + 0x709E5 = 0x080B89E5
0x080B89E5需要为4的倍数,所以取整为0x080B89E8。这个结果就是书上问题给出的第一个假设答案,但是是错误的,这是因为不同的VMA在虚拟内存中需要对应于不同的页面,也就是段地址对齐。
那么,我们的答案就应该为0x80B9000,就是书上给出的第二个假设答案。但也是错误的,因为如果这样映射,会造成物理内存的浪费,VMA0的结束地址为0x80B89E5,当映射到物理内存上时,从0x80B89E5开始到0x80B9000这部分内存,被浪费掉了。在极端情况下,每个VMA都可能浪费4095字节内存,这是非常划不来的。
所以UNIX采取了一个很取巧的办法:通过牺牲虚拟内存地址来换取物理内存的高效利用,让各个段接壤部分共享一个物理页面。在本例中,VMA0的最后一个页面的起始地址为0x80B8000,结束地址为0x80B9000,如下图:
VMA1从一个新的页面开始映射,同时空出前面的0x709E5,起始地址为0x80B99E5,这里牺牲了从0x80B89E5到0x80B99E5的虚拟地址空间换取了物理内存的高效利用,这里VMA0的最后一个页面和VMA1的第一个页面映射了同一个物理页面,(这个页面的权限,只读,可读可写等,应该是通过VMA来维护的,至于操作系统对于page是否有一些权限的控制,就不太清楚了)。
为了保证起始地址为4的倍数,需要将0x80B99E5向上取整为0x80B99E8,就是书上的答案了。
(原文时间2014-2-9)