深入理解计算机系统之计算机系统漫游
信息就是位+上下文
计算机系统中的所有信息——包括磁盘文件、内存中的数据以及网络上传送的数据,都是由一串比特序列表示。区分不同数据对象的唯一方法是我们读到这些数据时的上下文。比如在不同的上下文中,一个同样的字节序列可能表示一个整数、字符串或者机器指令。
这让我想起以前遇到的一个问题。当时用 NDK 开发,错把数组的 JVM 地址直接传给了 Native,然后程序运行失败了。同样的内存地址,也就是一段字节序列,在 JVM 和 Native 中的解释不一样,说明信息脱离上下文就没有意义了,传递信息时不能忽略上下文。
程序被编译执行
下面是用 C 语言实现 hello 程序,它是一种人类可读的文本表示,但是计算机只认由 0 和 1 组成的机器指令,C 语句需要被转化为机器语言指令,打包成可执行目标程序,以二进制的磁盘文件形式存放。
#include <stdio.h>
int main() {
printf("Hello world\n");
return 0;
}
在 Unix 系统上,从源文件到目标文件的转化是由编译器驱动程序完成的。
为什么要编译才能执行呢?因为 C 语言是高级程序设计语言,计算机无法理解 C 语言的语句。像 Python 这样的脚本语言,源代码需要边解释边执行,这是另外一种思路,本质上都是翻译为机器代码。
系统的硬件组成
- 总线:贯穿整个系统的一组电子管道。在各个部件间传送定长的字节块,也就是字 word。字长是一个基本的系统参数,要么是 4 个字节(32位),要么是 8 个字节(64位)。
- IO 设备:系统与外部世界的联系通道,通过控制器或适配器与 IO 总线相连。
- 主存:临时存储设备,在处理器执行程序时,用来存放程序和程序处理的数据。
- 处理器:CPU,解释或执行存储在主存中指令的引擎。处理器的核心是一个大小为一个字的寄存器,称为程序计数器(PC)。在任何时刻,PC 都指向主存中的某条机器语言指令。
上面的组成图也可以用冯·诺依曼体系结构解释。处理器负责运算和控制,主存负责存储数据和指令,IO 设备负责输入和输出。
存储设备的层次结构
存储器层次结构的主要思想是上层的存储器作为下层存储器的高速缓存。
为什么要分层呢?因为硬件的读写速度不匹配。越靠近 CPU,读写速度越快,当然价格也更高。现在硬件设计的原则是用空间换时间,买电子设备还是选内存大的,因为时间比空间更值钱。
操作系统管理硬件
操作系统有两个基本功能:
- 防止硬件被失控的应用程序滥用
- 向应用程序提供简单一致的机制来控制复杂的低级硬件设备
操作系统通过几个抽象概念来实现这两个功能,进程、虚拟内存和文件。文件是对 IO 设备的抽象表示,虚拟内存是对主存和磁盘 IO 设备的抽象表示,进程是对处理器、内存和 IO 设备的抽象表示。虚拟机是对整个计算机的抽象,包括操作系统、处理器和程序。指令集架构是对处理器的抽象。
这里讲的抽象就非常耐人寻味,它简化了系统实现的复杂性。比如,文件操作包括打开、读取、写入和关闭,IO 设备包括本地磁盘、网络存储等。对文件操作都可以抽象出统一的接口,由不同的 IO 设备实现。
进程和线程
进程是操作系统对一个正在运行的程序的一种抽象。处理器通过在进程间切换的机制(上下文切换)实现并行。
操作系统保持跟踪进程运行所需的所有状态信息,这种状态就是上下文,包括 PC 和寄存器文件的当前值以及主存的内容。上下文切换就是保存当前进程的上下文,恢复新进程的上下文,然后将控制权传递到新进程。
从一个进程到另一个进程的切换是由操作系统的内核管理的,内核是操作系统代码常驻主存的部分。它不是一个独立的进程,而是系统管理全部进程所用代码和数据结构的集合。
一个进程实际上由多个线程的组成,每个线程都运行在进程的上下文中,共享同样的代码和数据。
所以有这样的说法:进程是资源分配的基本单位,线程是任务调度的基本单位。
计算机系统漫游让我们从整体上认识了系统的结构和组成,算是为接下来的学习开了个好头。好的开端是成功的一半。