链接器的任务
在上一篇文章中,我们提到链接是将多个可重定位目标文件链接成一个可执行目标文件。必须要完成2件事
- 符号解析,将每一个符号引用的定义联系起来,比如foo.c中的num定义的地方是在main.c中。
- 重定位,编译器和汇编器生成从0地址开始的代码和数据节(下文会提到),链接器把每一个符号定义与存储器位置联系起来,然后修改所有对这些符号的引用。使得它们有正确的存储器地址。从而重定位这些节。
目标文件
目标文件一共有3类:
- 可重定位目标文件,包含二进制代码和数据,可以在;链接器中和其他可重定位目标文件合并为1个可执行目标文件。
- 可执行目标文件,包行二进制代码和数据。
- 共享目标文件,一种特殊类型的可重定位目标文件,可以在加载或者运行时被动态的加载到存储器并链接。
可重定位目标文件
||
|---------|-----------|
|ELF头|包括目标ELF头的大小,目标文件的类型,机器类型,节头部表等信息主要用来帮助链接器语法分析个解释目标文件的信息。
|.text|已编译程序的机器代码|
|.rodata|只读数据,比如"hello world"字符串和开关语句跳转表
|.data|已初始化的全局C变量
|.bss|未初始化的全局C变量
|.symtab|符号表,存放程序定义和引用的函数和全局变量的消息。有别于编译器的符号表
|......|......|
符号和符号表
每个可重定位目标模块m都有一个符号表,它包含m所定义和引用的符号信息。
- 由m定义并能被其他模块所引用的全局符号,对应于非静态的static属性的C函数和一级定义为不带static属性的全局变量。
- 由其他模块定义并被模块m引用的全局符号。这些符号称为外部符号(external)对应于定义在其他模块中的C函数和全局变量
- 只被模块m定义和引用的本地符号,有的本地链接器符号对应于带static属性的C函数和全局变量。
可重定位目标文件中有汇编器定义的符号表。
// ELF符号表条目
typedef struct{
int name; //
int value; // 符号地址,可重定位来说是节起始位置的偏移,对于可执行来说是绝对运行的地址。
int size; // 目标的大小
char type: 4 // 通常是数据或者函数
char binding: 4 // 本地符号还是全局符号
char section // 每个符号都和目标文件的某个节相关联,这个字段表示某个节,该字段是到节头部表的索引。
......
}ELF_Symbol
关于节头部表参考网友ELF文件-节和节头
符号解析
链接器解析符号引用的方法是将每一个引用与它输入的可重定位目标文件的符号表中的一个确定的符号定义联系起来在这里会有个问题,比如在C++/Java中函数可以重载,那么它们函数名的符号表不是冲突了吗?
在这里,编译器采用了一种叫做name mangling(中文有多种翻译,但都感觉怪怪的,这里不翻译了)的做法。其实质就是将每个方法和参数列表组合编码成对链接器来说唯一的名字。比如Foo::bar(int, long)被编码为bar__Fooil.这也从另一个角度说明了为什么函数重载区分度为不同的参数类型和个数。