2.2 追求并发的极致-线程概论
为了追求程序运行之间的并发性,计算机科学家们发明了进程。为了进一步的追求进程内部的并发性,工程师们又提出了线程。
正是线程的出现,给予了程序员更多地操纵OS的自由,可惜大多数程序员承担不起这种责任。
1.线程的诞生——将进程进一步细分
进程作为操作系统资源分配的最小单位,它的出现解决了操作系统并发执行任务的需求。
但是随着多核CPU的出现,人们希望能够通过继续拆分进程,实现计算速度的进一步提升。
比如一个听歌软件,它提供播放音乐和搜索音乐两个功能,其中播放音乐使用的是某首歌曲的内存资源,搜索音乐使用的是歌曲列表的内存资源。我们发现它们使用的资源在同一个进程的内存下并不同时相同。这就提供了进一步优化的可能。
计算机工程师们希望让在同一进程中的下列事情能够同时进行:
- 使用内存数据不一样的任务同时进行。
- 只读取同一内存数据,但不修改的任务同时进行。
- 一个任务修改内存数据,但是提前通知另外一个任务,并其得到允许的,同时进行。
因此工程师们将进程的堆栈空间进一步细分,分出多个叫做线程的轻量级进程,它们具有各自名义上的堆栈区(但也可以互相直接访问)和共享的数据区。名义上拥有的堆栈区可以让它们被操作系统直接调用,实际的共享内存区使它们之间切换变得简洁。
多线程的引入让一个进程可以同时执行多个任务,又减缓了进程切换的开销,
使得现在普遍使用的多线程系统正式步入了时代的舞台。
2.多线程系统的优点
线程之间互相共享内存空间,又可以被CPU独立调度的属性,产生了许多优点:
- 快速线程切换。同一进程内的线程切换,地址空间不变,节省了时间。
- 线程间通信容易实现。同一进程内的线程可以直接使用内存地址访问。
- 减少开销。线程创建的空间开销小于进程。(但时间开销未必)
- 多核性能好。多线程的引入可以充分利用多核CPU快速计算权限高的进程。
线程是追求并发的极致产物,它使得操作系统的并发性进一步地提高,但共享内存极致也导致了很多不安全的操作。
3.线程的状态
线程跟进程一样也有五种状态,注意的是线程的状态可能会影响到其他线程对共享内存数据的访问。
- 创建
- 执行
- 等待
- 就绪
- 终止
线程挂起的时候,它管理的内存数据有两种可能,全部交出去、保留权限不让其余线程修改。
线程的状态也影响了进程的状态,只要有一个线程没有被阻塞挂起,那么整个进程就可以处于就绪态或运行态。
4.线程的等级
线程大致可以分为三个等级,不同的等级不仅对应着不同的权限操作,还对应着操作系统对其的不同看法。
- 内核级线程。是操作系统真正认可的线程,它的调度管理在内核态进行,执行则在用户态,所以切换速度较慢。只有内核级线程才能真正实现多核并行计算,一个线程阻塞不影响其余线程。
- 用户级线程。是应用程序模拟的线程,内核并不知道该进程有多个线程,它的调度管理执行都在用户态,所以切换速度较快。但是操作系统底层仍把它当成一个线程,不能实现多核并行计算,一个线程阻塞整个进程阻塞。
- 混合式线程。一个线程既可以在内核态调度管理和执行,也可以在用户态调度管理执行,这样可以在内核态调用多核CPU并行执行,切换进程则在用户态。省去了转换两种状态的时间,但这也导致操作系统的安全性降低。
虽然用户级线程并不是真的多线程,但它给程序员提供了一个优秀的伪并行操作手段,
借此可以手动切换线程。正常情况下,用户级线程都是配合其他线程共同使用。
5.线程之间的组织合作
线程之间的组织大致可以分为互不干扰模式、调度员模式、流水线模式。
- 互不干扰模式:每个线程都是使用的内存数据不影响,各自独立做事。
- 调度员模式:有一个线程负责总的调度,其余线程都听从这个线程。
- 流水线模式:各个线程排成一个次序,产生的数据有关联性,A线程产生的数据给B线程,B线程产生的数据给C线程,依此类推。