上一篇文章已经介绍了静态链接的过程,但实际上动态链接才是用的最多的。
因为静态库有如下缺点:
- 库函数(如printf)被包含在每个运行进程的代码段中,对于并发运行上百个进程的系统,造成极大的资源浪费。
- 库函数(如printf)被合并在可执行目标文件中,磁盘上存放着数千个可执行文件,造成磁盘空间的极大浪费。
- 如果静态库需要更新,则需要与所有可重定位目标文件一起重新编译生成新的可执行文件。非常不便。
解决方案:使用共享库(Shared Libraries)。
再讲共享库和动态链接之前,有必要了解一下可执行文件加载的大致过程。
可执行文件的加载
可执行文件加载的大致步骤如下:
- shell进程先获取可执行文件的命令行参数,然后调用fork创建子进程,然后在子进程中利用命令行参数来构造argv和envp,以便作为参数来调用execve()函数,该函数会调用加载器(Loader),加载器根据可执行文件的程序头表中的信息,将可执行文件的代码和数据“拷贝”到进程地址空间中(这里的拷贝并不是真的拷贝,只是建立一种映射)。然后将PC(EIP)设定指向Entry point(即符号_start处),最终执行main函数,开始执行程序。
该过程大致如下图:
从_start()入口到main()函数之间,还调用了几个函数,如图:
动态链接
动态链接可以按以下两种方式进行:
- 在第一次加载并运行时(load-time linking)
Linux通常由动态链接器(ld-linux.so)自动处理;
标准C库(libc.so)通常是按照这种方式被动态链接的。
- 在程序已经开始运行后进行(run-time linking)
在Linux中,通过调用dlopen()等接口来实现;
1.加载时动态链接
依旧是用一个简单的示例来阐述。
首先,自定义一个共享库mylib.so
进行动态链接,生成可执行文件
2.运行时动态链接
运行时的动态链接的示例如下:
#include <stdio.h>
#include <dlfcn.h>
int main()
{
void *handle;
void (*myfunc1)();
char *error;
/* 动态装入包含函数myfunc1()的共享库文件 */
handle = dlopen("./mylib.so", RTLD_LAZY);
if (!handle) {
fprintf(stderr, "%s\n", dlerror());
exit(1);
}
/* 获得一个指向函数myfunc1()的指针myfunc1*/
myfunc1 = dlsym(handle, "myfunc1");
if ((error = dlerror()) != NULL) {
fprintf(stderr, "%s\n", error);
exit(1);
}
/* 现在可以像调用其他函数一样调用函数myfunc1() */
myfunc1();
/* 关闭(卸载)共享库文件 */
if (dlclose(handle) < 0) {
fprintf(stderr, "%s\n", dlerror());
exit(1);
}
return 0;
}
上面提到位置无关代码(PIC,全称:Position-Independent Code),这是动态链接中一个重要的概念:
- 可通过GCC的-fPIC选项指示生成PIC代码;
- 共享库代码是一种PIC,也就是说共享库代码的位置可以是不确定的,而且即便共享库的代码长度发生了变化,也不影响调用它的程序。
- 引入PIC的目的是,链接器无需修改代码即可将共享库加载到任意地址运行。
- 另外,动态链接的符号引用有如下4种情况:
(1) 模块内的过程调用、跳转,采用PC相对偏移寻址;
(2) 模块内的数据访问,如模块内的全局变量和静态变量
(3) 模块外的过程调用、跳转 【要生成PIC代码来解决】
(4) 模块外的数据访问,如外部变量的访问【要生成PIC代码来解决】。
-
(1) 模块内部的函数调用或跳转
-
(2) 模块内部的数据引用
-
(3) 模块外数据的引用 —— 利用GOT来完成重定位
-
(4) 模块间的函数调用或跳转 —— 利用GOT或 GOT/PLT 来完成重定位