C++程序编译过程(以g++为例)
预处理
处理#开始的命令,得到不包含#指令的.i文件,包括替换宏、引入头文件、去除注释等;使用预处理器cpp。
编译
分析.i文件的语法和词法,确定是否所有指令都符合规则,随后翻译成汇编代码,得到.s文件;使用编译器egcs。
汇编
将汇编代码转换为目标代码(机器语言二进制代码),生成.o文件;使用汇编器as。
链接
将外部库函数代码添加到可执行文件中;使用链接器ld。
链接(Link)
一个完整的程序往往被分割为若干个独立的部分并行开发,而各个模块间通过函数接口或全局变量进行通讯。编译器只能在一个模块内部完成符号名到地址的转换工作,不同模块之间的符号解析需要由链接器来完成。
链接器的主要工作包括符号解析和重定位:
符号解析
到别的模块中查找本模块中未定义过的函数或者全局变量。
重定位
编译器在编译生成目标文件时,通常都使用从零开始的相对地址。然而,在链接过程中,链接器将从一个指定的地址开始,根据输入的目标文件的顺序以段为单位将它们一个接一个的拼装起来。除了目标文件的拼装之外,在重定位的过程中还完成了两个任务:一是生成最终的符号表;二是对代码段中的某些位置进行修改,所有需要修改的位置都由编译器生成的重定位表指出。
目标文件
目标文件从结构上讲是可执行文件格式(在linux下是ELF格式),只是还没有经过链接处理,有些符号和地址还没有经过修正。目标文件有未解决符号表(unresolved symbol table)、导出符号表(export symbol table)和地址重定向表(address redirect table)。其中 :
未解决符号表:列出了本单元里有引用但是不在本单元定义的符号及其出现的地址。
导出符号表:提供了本编译单元具有定义,并且可以提供给其他编译单元使用的符号及其在本单元中的地址。
地址重定向表:提供了本编译单元所有对自身地址的引用记录。
链接器的工作顺序
当链接器进行链接的时候,首先决定各个目标文件在最终可执行文件里的位置。然后访问所有目标文件的地址重定向表,对其中记录的地址进行重定向(加上一个偏移量,即该编译单元在可执行文件上的起始地址)。然后遍历所有目标文件的未解决符号表,并且在所有的导出符号表里查找匹配的符号,并在未解决符号表中所记录的位置上填写实现地址。最后把所有的目标文件的内容写在各自的位置上,就生成一个可执行文件。
静态库
静态库在编译过程中会被链接进目标可执行文件(部分还是全部?),在可执行文件运行的过程中,不需要同时携带静态库。
- 命名格式
lib+库的名字+.a - 发布时需要携带头文件
- 制作
第一步:得到.o文件
gcc <源文件> -c -I <path/to/include>
第二步:创建静态库
ar rcs libMyLib.a <目标文件.o>
- 使用
第一种方法:
gcc <源文件> -L<静态库路径> -l<静态库名> -I <头文件目录> -o <可执行文件名>
第二种方法:
gcc <源文件> -I <头文件目录> libxxx.a -o <可执行文件名>
动态库
动态库在编译过程中不会被链接进可执行文件。能够节省空间并且更加灵活(比如可以独立于可执行文件更新,存疑)。
- 命名格式
lib+库的名字+.so - 制作
第一步:生成与位置无关的.o文件
gcc -fPIC <源文件.c> -I <头文件目录> -c
第二步:创建动态库
gcc -shared -o libMyTest.so <目标文件.o>
- 使用
第一种方法:
gcc <源文件> -L<动态库路径> -l<动态库名> -I <头文件目录> -o <可执行文件名>
第二种方法:
gcc <源文件> -I <头文件目录> libxxx.so -o <可执行文件名>
- 查找方式
编译时(以ld链接器为例):
- -L选项声明的路径
- /usr/lib /usr/local/lib
运行时(以Debian为例):
- 库的DT_RPATH属性
- 可执行文件的DT_RPATH属性
- LD_LIBRARY_PATH环境变量
- 可执行文件的DT_RUNPATH属性
- /etc/ld.so.cache
- /lib和/usr/lib
装入(Load)
多道程序环境下,程序是并发执行的,要使程序运行,必须为之创建进程,而创建进程第一件事就是将程序和数据装入内存。
链接和装入的不同阶段
静态链接、静态装入
将所有的目标文件连接成一个可执行映像,随后在创建进程时将该可执行影像一次性全部装入内存。这样导致硬盘和内存利用效率都不高。
静态链接、动态装入
一个函数只有在被调用时,其所在的模块才会被装入内存(同时更新此程序的地址表)。这样提高了内存利用效率。
动态链接、动态装入
在使用动态链接时,需要在程序影像中每个调用库函数的地方打一个桩(stub)。桩是一小段代码,用于定位已装入内存的相应的库;如果所需的库还不在内存中,stub将指出如何将该函数所在的库装入内存。此外,用到同一个库的进程将通过地址映射到相同的库的实现。动态链接的这一特性对于库的升级(比如错误的修正)是至关重要的。当一个库升级到一个新版本时,所有用到这个库的程序将自动使用新的版本。如果不使用动态链接技术,那么所有这些程序都需要被重新链接才能得以访问新版的库。为了避免程序意外使用到一些不兼容的新版的库,通常在程序和库中都包含各自的版本信息。内存中可能会同时存在着一个库的几个版本,但是每个程序可以通过版本信息来决定它到底应该使用哪一个。如果对库只做了微小的改动,库的版本号将保持不变;如果改动较大,则相应递增版本号。因此,如果新版库中含有与早期不兼容的改动,只有那些使用新版库进行编译的程序才会受到影响,而在新版库安装之前进行过链接的程序将继续使用以前的库。这样的系统被称作共享库系统。
gcc常用选项
-o 指定目标名称
-c 只激活预处理、编译和汇编,得到目标文件
-S 只激活预处理和编译,得到汇编代码
-E 只激活预处理,得到.i文件
-C 在预处理的时候,不删除注释信息
-static 禁止使用动态库
-share 尽量使用动态库
-l 指定头文件目录
-D 编译时定义宏
-g 包含调试信息
参考文献
https://www.ibm.com/developerworks/cn/linux/l-dynlink/index.html
https://blog.csdn.net/edisonlg/article/details/7081357
https://blog.csdn.net/HappyToEat/article/details/53163385