程序从源码到运行
进程在内存中的结构
- Code - text段
用于存放可执行指令,当多个进程运行同一个程序时,这个段可以共享。 - Initialized data - data段
已经初始化的全局变量和静态变量,多进程运行同一个程序,但是每个进程都有自己的data段。 - Uninitialized data - bss段
BSS(Block Started by Symbol)未初始化的全局变量和静态变量,多进程运行同一个程序,但是每个进程都有自己的bss段。 - Heap - 堆
里面的数据只能通过指针来访问。向上增长。 - Stack - 栈
用于存放函数的参数,返回值和局部变量。FILO(First In Latest Out),向下增长。
进程的装载(Loading)
在Linux系统中,通过系统调用(execve或者spawn)从文件系统中装载ELF(Executable and Linking Format)格式的文件来装载进程。
ELF文件的两种视角
- 链接视角, 当程序或者库被链接时的视角。里面包含目标文件的一系列信息,例如数据,指令,重定位信息,符号,debug信息等。
- 执行视角,当程序运行时的视角。通常所有的可执行的和只读的数据被放到text段,bss和data被放入data段。
部分的ELF段
- .init - Startup
- .text - String
- .fini - Shutdown
- .rodata - 只读
- .data - 已初始化数据
- .tdata - 已初始化线程数据
- .tbss - 未初始化线程数据
- .bss - 未初始化数据
- .debug_info - 程序源码和可执行码的对应关系,用于调试
- ...
进程装载过程
- kernel读取ELF header并校验类型,权限,需要的内存大小,和是否可运行里面的指令。通过则计算其所需的内存。
- 申请内存
- copy地址空间从硬盘到主存
- 从硬盘中copy .text和.data段到主存
- copy程序参数到stack中
- 初始化寄存器,设置stack指针到栈顶
- jumps to start routine
ELF文件(可执行文件)生成
- 预处理
删除注释,执行条件编译,将所有#include文件内容插入源文件对于位置 - 编译
将预处理后的文件编译成汇编源码文件 - 汇编
将汇编代码转化成机器指令,将编译后的文件汇编成目标文件(object file) - 链接
将多个目标文件组合成一个可执行文件,并且解析对外部符号的引用,并为函数和参数分配地址,并且修正代码和数据地址,这个过程叫做重定位(relocation)。
链接
链接分为动态链接和静态链接
- 动态链接:链接器链接时不会将程序和库组合在一起,而是将链接信息放入可执行文件,当可执行文件加载时将链接信息告诉加载器。动态链接库一般.so结尾。优点生成的可执行文件小,方便升级标准库。
- 静态链接:链接器链接时将程序和库进行链接。静态链接库一般.a结尾。优点不用担心库的版本问题,缺点生成的可执行文件大。