导读
要理解进程与线程,首先得了解并发与并行。
并发与并行
- 并发
单核CPU时间分片,多个程序切换执行,这就是并发。并发是共享内存的,所以需要加锁。
因为并发共享内存,并且会几个程序互相切换执行,所以在一个CPU执行的并发必须处理上下文切换的问题。 进程就是在这种背景下,被提出的。进程就是一些相关线程的统称,是一些相关线程的集合。进程搭配虚拟内存、进行表等,可以管理独立程序的运行、切换。
并发也就是多线程。
由上面这段话可见,程序在运行过程中,对计算机资源的分配是个很重大的问题,于是出现了操作系统专门干这个活。操作系统核心的操作是陷入内核(Kernel),切换到操作系统,让内核来做。
- 并行
多核CPU几个程序同时执行,这就是并行。并行也就是我们所说的多进程。
进程和线程
- 进程
进程是一个容器,也就是一个程序。
进程的切换:
- 切换页全局目录(Page Global Directory)来加载新的地址空间,实际上会加载新进程的cr3寄存器值。
- 切换内核堆栈和硬件上下文,这些包含了内核执行一个新进程的所有信息,包含了CPU寄存器。
-
线程
线程是容器里的工作单元。上面说并发的时候讲到,并发是共享内存的,也就说这些并发的线程会共享一个地址空间。线程的切换,不需要重新加载地址空间,页面缓冲区,需要切换寄存器上下文和栈。开销相对较小。线程在切换任务的时候,切换寄存器上下文和栈是抢占式的(Preeemptive multitasking),谁抢了是谁的,这就导致了线程之间的执行顺序是无法保证的,所以使用线程时需要小心操作同步问题。
进程和线程的相同点
线程和进程的切换,都需要陷入系统调用,即CPU先跑操作系统的调度程序,然后再由调度程序决定该炮哪一个进程(线程)
同步和异步
首先要明确一点,同步/异步这个讨论对于IO密集型才有意义。
因为对于计算密集型程序来说,
你等或者不等,
计算任务都在那里,
不多不少。
对于IO密集型程序来说,
你等就是占着茅坑不拉屎。你的肚子还没有应答,你蹲在那有什么用?反而不如腾出地方来,让程序别的地方先用着。等你确实要拉了,再来。这个坑位,就是CPU啊!
协程
协程,coroutine,也叫纤程(Fiber),或绿色线程。
协程是用户态的轻量级线程。这句话是什么鬼?
协程拥有自己的寄存器上下文和栈。协程调度切换时,将寄存器上下文和栈保存到其他地方,切回来的时候,挥发原来保存的寄存器上下文和栈。
由此可见,协程能保留上一次调用时的状态。协程的任务切换是由用户自己控制的,不存在抢占,所以这种叫做协作式多任务。
协程也是单线程的,本质也是异步+回调,但是它是经过包装的,写出的代码看着是同步的代码。写过Node的应该深有体会。
Go研究出来了一套协程的调度算法,所以Go的协程叫做Goroutine。
Kotlin也有,C#也有,不是什么新鲜玩意。但是在语言的层面上的支持,还是第一个。
事件驱动
事件驱动是事先编写一个事件循环,这个事件循环程序不断地检查目前要处理的信息,多用在GUI框架、页面上的JS事件。如果这个事件收到了要处理的事件的信号,就异步去执行。
然后这个信号是推拉结合的。
基于事件驱动的编程是单线程思维,特点是异步+回调。
协程的优劣
协程的优点
- 跨平台/跨体系架构
- 与进程/线程相比,上下文切换的开销
- 与线程相比,不需要原子操作锁定及同步
- 与事件驱动相比,方便切换控制流,编程模型简单
- 高并发,一个CPU支持上万的协程
协程的缺点
- 无法利用多核资源,事件驱动,本质是个单线程的循环而已。需要配合进程来执行。
演进轨迹
IO密集型程序:多进程 -> 多线程 -> 事件驱动 -> 协程
CPU密集型程序:多进程 -> 多线程
-
为什么从多进程到多线程是一种进步?
因为线程比进行性能开销小,而且多线程之间数据通信与同步更加方便。想同步的时候就访问,修改的时候加把锁就可以了。这个也是符合我们直觉的。比如要需要一个程序某个部分的几个不同运算值,是在后台多起几个进程分别跑呢?还是写成多线程处理呢?实践中,我们很少见到开多进程的吧?
那为什么CPU密集型任务没有发展到事件驱动、协程呢?
因为CPU密集型的任务,一般都是需要计算的,计算是需要CPU的。CPU的多少是和系统的硬件相关,异步是改变不了这一点的,等待的时候不能计算,等待完了该算的还得接着算,所以说没什么卵用。
多进程(并行)/多线程(并发)/协程各自的适用场景
为什么程序多了电脑卡
进程多了,操作系统会频繁切换进程。从上面可知,进程一切换,页全局目录、内核堆栈、硬件上下文都会变。一旦进程变多之后,频繁切换会挤占大部分资源。
相关知识补充
啥是“陷入内核”?看到这个词的第一反应是写错了。其实不然。
要说请首先需明确,特权级的概念。就行linux系统里面,喜欢划分管理员和用户等不同权限角色一样。在系统中,为了让资源调配集中管理,便有了特权级这个概念。特权级一共有0-3这四个级别,0最高,可以管理CPU。
linux系统里面只有两个级别,0级和3级。操作系统的内核当然是最高级0级,应用程序是3级。当应用程序需要访问系统资源时,CPU就进入了内核,从图上看好像陷进入一样。
所谓的上下文,是指程序在运行过程中的一些中间状态,比如会运算出来一些值,这些值在后面的计算中也会用到。当然这些值必须保存在内存中。