本篇文章我们围绕着进程的故事, 去理解进程
用一句话来概括进程, 你该怎么描述?
进程是一个执行中程序的实例, 系统中的每个程序都运行在每个进程的上下文里.
那引申出一个问题: 程序能否运行在线程里?
上文的定义中, 我们可以拆解出两个问题
进程的结构
既然进程是程序的实例, 要想了解进程的结构, 那我们要先知道程序的样子
程序的结构如下:
- 二进制格式标识: 每个程序都有可用于描述可执行格式的元信息
- 程序入口地址: 标识程序开始执行时指令的起始位置 (代码)
- 数据: 程序包含的变量初始值和字面常量值(比如字符串)
- 符号表及重定位表
- 共享库和动态链接信息
- 其他信息
这些东西都会被各种语言的编译器编译好形成一个个可执行的文件, 当我们运行该文件时, 进程也就被创建出来了.
进程的内存布局使用的是虚拟地址空间, 优点如下:
- 给所有进程提供一致性的地址空间, 使得每个进程都认为自己在使用整个系统的存储资源
- 保护每个进程不受到其他进程的干扰和破坏
- 分页管理主要针对物理内存和虚拟内存之间的映射, 进程在物理内存上实际是不连续的, 只是在虚拟内存上连续, 这样提高了内存的利用率
无论是64位还是32位基本的结构都如上, 它划分了几个段
1. 只读代码段: 包含了进程运行的程序机器语言指令, 为了避免指针修改的误操作, 又因为多个进程可以共享一个程序的代码段, 所以只读代码段是共享的(每个进程的虚拟地址都指向只读代码段的实际物理地址)
2. 读/写段:
- data(初始数据段): 包含显示初始化的全局变量和静态变量
- bss(未初始化数据段): 包含未进行显示初始化的全局变量和静态变量, 其内存地址值均为0(其原因为没必要在磁盘上未没分配的变量分配空间)
3. 堆
4. 共享库的内存映射区域: 内核在这里将文件内容映射为内存. mmap段是一种高效便捷的文件I/O方式, 被用于加载动态链接库
5. 栈
6. 内核内存
这里引出一个问题, 进程之间是如何保证相互隔离的?
进程间的共享和隔离
参考 段页内存管理技术, 假设没有虚拟内存. 所有的程序运行时需要从内存中分配足够多的地址,然后把程序装进去. 这会导致几个问题
1. 地址空间不隔离
假设A的地址是从 0x00000000 ~ 0x00000100, B的地址是从 0x00000200 ~ 0x00000300. 如果A在操作地址时不小心写错了, 要修改 0x250的地址, 那么就会操作到程序B的地址
2. 程序运行时的地址不稳定
因为每次都是要从内存中索取地址, 那么每次索取的地址肯定不稳定, 如果程序A想对某个具体的地址写数据, 那就会造成错误
3. 内存使用率低下
假设有三个程序, 程序A为10M, 程序B为70M, 程序C为30M. 假设内存为100M, 所有程序加起来的内存为110M, 会导致三个程序是无法同时存在内存中的
通过段页内存管理技术, 再加上虚拟地址空间的概念. 使得我们很好的解决了上面三个问题.
其中分段技术和虚拟地址, 确保了程序所接触到的地址是稳定的(程序对接的是虚拟地址), 地址空间是隔离的, 因为即便程序A 和 程序B同时对某个地址写入, 映射到物理地址也是不一样的,
分页技术的引入, 使得程序的换入换出可以以页为单位, 这样, 我们就无需加载所有程序的所有数据代码, 或者把程序不常用的代码数据段替换掉(根据空间局部性)
除此之外, 分段技术, 保证了安全性和共享性, 我们可以设置每个段的读写权限, 比如代码段只允许读, 不允许修改. 同时对内存分段后, 我们可以很容易把其中的代码段或数据段共享给其他程序
共享内存技术会在进程通信中讲述
进程的上下文
还记得开头的定义吗, 这里引出进程的第二个问题, 何为进程的上下文?
进程是系统资源分配的最小单元, 线程是CPU调度的最小单元
上下文也称自为环境, 抛去线程不谈, 一个CPU在同一时刻只能操作一个进程, 当不同进程进行切换的时候, 内核重新启动一个进程所需要的状态就称自为上下文
进程是由内核来管理和调度的, 进程的切换发生在内核态, 所以进程上下文不仅包括虚拟内存、栈、全局变量等用户态资源, 还包括内核堆栈、寄存器等内核空间状态
保存和恢复并不是“免费的”, 需要内核在CPU上完成. 所以当进程过多的时候, 进程之间的切换会导致CPU浪费大量时间在寄存器、内核栈、虚拟内存等资源的恢复和保存上.
进程发生切换的场景有:
- 当前进程时间片耗尽, 切换线程
- 当前进程在系统资源不足时(比如内存), 等待满足才可以运行. 会被挂起, 切换
- 类似sleep的方法将自动主动挂起, 也会重新调度
- 有人插队(更高优先级的进程)
- 硬件中断, 进程会被中断挂起, 转而执行内核的中断服务
总结
本文的两个定义请仔细阅读和理解 -> 进程是执行中程序的实例 和 进程是资源分配的最小单元
围绕着进程, 我们了解了进程的结构, 引出了 虚拟内存 和 段页内存管理技术. 它们的好处在于保证了每个进程空间的一致性, 进程之间是相互隔离, 每个段具备安全性和共享性, 同时也加强了内存的利用率
每次内核调度进程时, 都是围绕着进程上下文展开的, 需要去恢复暂停进程的状态, 才能继续执行. 如果在线程过多的情况下, 进程间切换的消耗甚至大于多线程的优点.
如果有什么疑问和错误, 欢迎指出, 感谢你的支持