进程的创建:fork
可以看到调用的是kernel_clone函数
那么在这个函数中,主要有两个步骤:
1. 调用copy_process函数创建一个新的进程
2. 调用wake_up_new_task函数将新创建的进程加入到调度队列
copy_process
1. dup_task_struct 为新创建的进程分配一个新的task_struct结构,并且使用父进程的结构体内容对其进行填充。
2. sched_fork Assign this task to a CPU
3. copy_xxx 拷贝一些父进程的内容给子进程,包括打开文件描述符表等内容
4. alloc_pid 为子进程分配pid
5. cgroup_can_fork 判断进程是否能够申请(是否满足pid子系统的限制)
wake_up_new_task
1. p->state=TASK_RUNNING; 设置进程状态
进程的运行状态,其中最主要的是TASK_RUNNING,TASK_INTERRUPTIBLE和TASK_UNINTERRUPTIBLE,其中ready和running都被归为了TASK_RUNNING,所以这个状态表示的不是“正在运行”,而是“具备运行的条件”(runnable)。
2. __task_rq_lock 获取进程所在的cpu的负载队列
3. activate_task 将进程加入对应负载队列
COW
父进程中属于"data"段的页面将被临时设置为read-only,并打上Copy-on-Write (COW)的标志。子进程有自己的page table,但和父进程共享页面。直到子进程试图修改这些共享的页面,才会因为页面被标记为“只读”而触发page fault, 进而复制出一份新的页面。
fork和exec
一个进程一旦调用exec类函数,系统把代码段替换成新的程序的代码,废弃原有的数据段和堆栈段,并为新程序分配新的数据段与堆栈段,唯一留下的,就是pid,也就是说,对系统而言,还是同一个进程,不过已经是另一个程序了。
而fork是创建了一个新的进程,pid之类的都是新的。
下述内容,大多复制粘贴,来源已在文章末尾标明参考链接。
如何找到当前进程的task_struct
current宏,指向运行在当前CPU上的进程的task_struct。
1. 内核为每个process都分配了一个kernel stack,在2.6内核之前,一个process的"task_struct"被放在了其对应kernel stack的末尾。
2. 然而随着"task_struct"体积的增大,逐渐改用slab分配器来申请内存。也就是说,之前的"task_struct"的内存是在stack上,现在是在heap上。
在heap上分配到的地址是不确定的,因此又增加了一个新的"thread_info"结构体,来取代原来"task_struct"在kernel stack末尾的位置,然后由"thread_info"指向"task_struct"。
thread_info中大多存储一些与体系结构相关的内容,而task_struct相对来说则更为通用一些。
在32位 arm架构中,先通过“sp”栈顶寄存器获取到当前进程的栈地址,通过mask计算,根据page对齐原理就可以拿到位于栈内存区域底部的struct thread_info地址。info->task就是当前进程的进程描述符。
ARM64增加了很多通用寄存器,使用寄存器传递进程描述符显然效率更高。因此在ARM64架构里,current宏不再通过栈偏移量得到进程描述符地址,而是借用专门的寄存器。ARM64使用sp_el0,在进程切换时暂存进程描述符地址。
sp就是堆栈寄存器。在ARM64里,CPU运行在四个级别(或者叫运行空间),分别是el0、el1、el2、el3,el0则就是用户空间,el1则是内核空间,sp_el0就是用户栈。
3. 使用per-CPU变量的形式存储 :
per-CPU变量为系统中的每个处理器都分配了该变量的副本。这样做的好处是,在多处理器系统中,当处理器操作属于它的变量副本时,不需要考虑与其他处理器的竞争的问题,同时该副本还可以充分利用处理器本地的硬件缓冲cache来提供访问速度。
在x86体系结构中,linux kernel使用了current_task这个per-CPU变量,来存储当前正在使用的CPU的进程描述符struct task_struct。
x86上通用寄存器有限,无法像ARM中那样单独拿出寄存器来存储进程描述符task_sturct结构的地址。由于采用了per-cpu变量current_task来保存当前运行进程的task_struct,所以在进程切换时,就需要更新该变量。
内核线程
还有一类process,它们从创建到消亡,都只运行在在内核空间,这就是内核线程(kernel thread)。
内核线程也由"task_struct"来表示,且和普通的用户态process一起参与调度,但它们不需要访问user space的内存,因此被设定为不能拥有自己的address space和page table,所以其"task_struct->mm"域的值为空。
但是,内核线程需要访问kernel space的内存,而访问这些内存需要经过page table。既然自己没有,就临时借用在自己之前运行的那个process的mm。用"active_mm"域指向这个process的memory descriptor。
这样,内核线程可以通过借用的page table来获取公共的kernel memory里的信息,既避免了单独申请address space和page table的内存开销,还顺便减少了address space切换的开销,一举两得。
一个内核线程只能由另一个内核线程来创建,为了方便,统一使用"kthreadd"这个内核线程来创建其他的内核线程。用户进程的“祖宗”是init/systemd进程,PID是1,而kthreadd的PID是2。
参考:
https://zhuanlan.zhihu.com/p/100030111
https://blog.csdn.net/Rong_Toa/article/details/110316125