fork
函数用于创建一个与当前进程映像一样的子进程,所创建的子进程将复制父进程的代码段、数据段、BSS段、堆、栈等所有用户空间信息,在内核中操作系统会重新为其申请一个子进程执行的位置。
fork
系统调用会通过复制一个现有进程来创建一个全新的进程,新进程被存放在一个叫做任务队列的双向循环链表中,链表中的每一项都是类型为task_struct
的进程控制块PCB
的结构。
父子进程有什么区别呢?
- 父进程设置了锁,子进程不继承。
- 进程ID各不相同
- 子进程的未决告警被清除
- 子进程的未决信号集设置未空集
函数原型
pid_t fork(void);
pid_t
是一个宏定义,其实质是int
被定义在#include <sys/types.h>
头文件中。
头文件
#include <unistd.h>
#include <sys/types.h>
返回值
若成功调用一次则返回两个值,子进程返回0,父进程返回子进程ID,否则出错返回-1。
每个进程都由独特换不相同的进程标识符(process ID),通过getpid()
函数可获取当前进程的进程标识符,通过getppid()
函数可获得父进程的进程标识符。
例如:
$ vim fork.c
#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
int cnt = 1;
int main(void)
{
//派生进程
pid_t pid = fork();
//派生失败
if(pid < 0)
{
perror("fork error");
exit(1);
}
//派生成功返回值为0表示子进程
else if(pid == 0)
{
printf("\nchild: forkval=%d pid=%d cnt=%d\n", pid, getpid(), ++cnt);
sleep(3);//由于父子进程是并发的
}
//派生成功返回值大于0表示父进程,父进程中将返回子进程的PID。
else if(pid > 0)
{
printf("\nparent: forkval=%d pid=%d cnt=%d\n", pid, getpid(), cnt);
while(1);//由于父子进程是并发的
}
return 0;
}
$ gcc fork.c -o fork -Wall -g
$ ./fork
parent: forkval=14058 pid=14057 cnt=1
child: forkval=0 pid=14058 cnt=2
一个现有的进程可通过调用fork
函数创建一个新进程,由fork
创建的新进程称为子进程child process
,fork
函数被调用一次但返回两次,两次返回的唯一区别是子进程中返回0而父进程中返回子进程ID。
子进程是父进程的副本,它将获得父进程数据空间、堆、栈等资源的副本。值得注意的是子进程持有的是存储空间的副本,意味着父子进程之间是不会共享这些存储空间的。
UNIX将复制父进程的地址空间内容给子进程,因此子进程具有独立的地址空间。在不同的UNIX系统下,是无法确定fork
后是子进程先运行还是父进程先运行,这依赖于系统的实现。
fork
执行执行流程
当进程调用fork
后控制转入内核,内核将会做4件事儿:
- 分配新的内存块和内核数据结构给子进程
- 将父进程部分数据结构内容(数据空间、堆栈等)拷贝到子进程
- 添加子进程到系统进程列表中
-
fork
返回开始调度器调度
为什么fork
会返回两次呢?
因为复制时会复制父进程的堆栈段,所以两个进程都停留在fork
函数中等待返回,因此会返回两次,一个是在父进程中返回,一次是在子进程中返回,两次返回值是不一样的。
- 在父进程中将返回新建子进程的进程ID
- 在子进程中将返回0
- 若出现错误则返回一个负数
因此可以通过fork
的返回值来判断当前进程是子进程还是父进程
为什么pid
在父子进程中不同呢?
其实就相当于链表,进程形成了链表,父进程的pid
指向子进程的进程ID,因此子进程没有子进程,所以PID为0,这里的pid
相当于链表中的指针。
fork
派生可能出现的错误原因是什么呢?
- 当前进程数已经达到系统规定的上限错误值
errno
会被设置为EAGAIN
。
$ cat /proc/sys/kernel/pid_max
32768
- 系统内存不足时错误值
errno
会被设置为EAGAIN
fork
系统调用使用注意
-
fork
系统调用之后父进程和子进程是交替执行,父子进程是处于不同空间中的 -
fork
系统调用的一次调用存在两次返回,此时二个进程处于独立的空间,各自执行自己的参数