一、进程
进程就是处于执行期的程序以及相关资源的总称(目标码存放在某种存储介质上),是正在执行的程序代码的实时结果。内核需要有有效而又透明地管理所有细节。
执行线程,简称线程,是在进程中活动的对象。每个线程都有一个独立的程序计数器、进程栈和一组进程寄存器。内核调度的对象是线程,而不是进程。
二、进程描述符及任务结构
内核把进程的列表存放在任务队列(task_list)双向循环链表中。链表的每个元素都是类型为task_struct的结构,称为进程描述符(process descriptor)。进程描述符中包含一个具体进程的所有信息,该结构在32位机器上大小约1.7KB:
内核通过一个唯一的进程标识值或PID来标识每个进程。PID是一个数,表示为pid_t隐含类型,实际是一个int类型。其最大值默认为32768,就是系统允许同时存在的进程最大数目。
进程的状态由task_struct中的state域描述,系统中每个进程必然处于以下5中进程状态:TASK_RUNNING、TASK_INTERRUPTIBLE、TASK_UNINTERRUPTIBLE、__TASK_TRACED、__TASK_STOPPED:
Linux中进程之间存在明显的集成关系。所有的进程都是PID为1的init进程的后代。内核在系统启动的最后阶段启动init进程,该进程读取系统的初始化脚本并执行其他的相关程序,最终完成系统启动的整个过程。
task_struct中包含:
- task_struct* parent:指向父进程
- list_head children:子进程链表
- list_head sibling:兄弟进程链表
三、进程创建
Unix使用fork()和exec()来创建进程空间、读入可执行文件并执行。
Linux的fork(调用clone实现)使用写时拷贝(copy-in-write)页实现。写时拷贝是一种可以推迟甚至免除拷贝数据的技术。内核此时并不复制整个进程地址空间,而是让父子进程共享同一个拷贝,只有在需要写入时才进行拷贝。因此fork的实际开销就是复制父进程的页表以及给子进程创建唯一的进程描述符。
四、线程在Linux中的实现
线程机制是现代编程技术中常用的一种抽象概念。该机制提供了统一程序内共享内存地址空间允许的一组线程。
Linux把所有线程当作进程来实现,内核没有准备特别的调度算法或是定义特别的数据结构来表征线程。线程仅仅被视为一个与其他进程共享某些资源的进程。每个线程都有唯一隶属于自己的task_struct。对于Linux而言,线程只是一种进程间共享资源的手段。
线程的创建
线程的创建和普通进程类似。只不过在clone时需要传一些参数标志来指明需要共享的资源:
clone(CLONE_VM | CLONE_FS | CLONE_FILES | CLONE_SIGHAND, 0);
内核线程
内核经常需要在后台执行一些操作。这种任务可以通过内核线程(kernel thread)完成--独立允许在内核空间的标准进程。内核进程没有独立的地址空间,不会切换到用户空间,只能由其他内核线程创建。
五、进程终结
一般来说,进程的析构都是自身引起的,发生在进程调用exit时,可能是显示调用,也可能是隐式从某个程序的主函数返回调用。当进程接受到它不能处理也不能忽略的信号或异常时,它还可能被动地终结。
exit会将进程相关联的资源都释放了,此时进程处于EXIT_ZOMBIE退出状态,占用的内存包括:内核栈、thread_info结构和task_struct结构。此时进程的目的就是向其父进程提供信息。
父进程通过调用wait挂起,知道其中一个子进程退出。此时,才会将子进程的内核栈、thread_info结构和task_struct结构所占内存释放。
如果父进程在子进程之前退出,那么会给子进程在当前线程组内找一个线程作为父进程,如果不行,就让init进程作为其父进程。