第一章 计算机系统漫游
1 以hello程序为例,讨论程序的生命周期
为了在系统上运行hello.c程序,每条c语句都必须被其他程序转化为一系列的低级机器语言指令。然后这些指令按照一种称为可执行目标程序的格式打好包,并以二进制磁盘文件的形式存放起来。
从源程序到目标程序的转化是由编译器驱动程序完成的。
(1)预处理阶段
预处理器根据以字符#开头的命令,修改原始的c程序。比如#include<stdio.h>命令告诉与预处理器读取系统头文件stdio.h的内容,并把它直接插入到程序文本中。.c ---> .i文件。
(2)编译阶段
编译器把文本文件hello.i翻译成hello.s,它包含了一个汇编语言程序。
(3)汇编阶段
汇编器将hello.s翻译成机器语言指令,把这些指令打包成一种叫做可重定位目标程序的格式,并将结果保存在目标文件hello.o中。hello.o文件是一个二进制文件。(指令编码)
(4)链接阶段
例如,程序中调用了printf,它是标准c库中的一个函数。printf函数存在于一个名为printf.o的单独的预编译好了的目标文件中,而这个文件必须以某种方式合并到我们的hello.o程序中。
链接器就负责这种合并。结果就得到hello文件,它是一个可执行目标文件,可被加载到内存中,由系统执行。
2 编译系统如何工作
1 优化系统性能
如switch 和 if-else的比较。for和while的比较。指针引用和数组索引的比较。等等
2 理解链接时出现的错误。
静态变量和全局变量的区别。静态库和动态库的区别。等等等等(第七章)
3 避免安全漏洞
堆栈原理和缓冲区溢出。(限制从不受信任的源接收数据的数量和格式)
3 系统的硬件组成
1 总线
· 贯穿整个系统的一组电子管道,它携带信息字节并负责在各个部件间传递。
·通常总线被设计成传送定长的字节块,也就是字。
·字中的字节数(字长)是一个基本的系统参数,各个系统中不尽相同。现在的大多数机器要么是4字节(32位),要么是8个字节(64位)。
2 I/O设备
·I/O设备是系统与外部世界的联系通道。
·每个I/O设备都通过一个控制器或适配器与I/O总线相连。控制器与适配器之间的额区别在于它们的封装方式。主印刷电路板or插在主板插槽上的卡。
3 主存
·是一个临时存储设备,在处理器执行程序时,用来存放程序和程序处理的数据。
·由一组动态随机存取存储器(DRAM)芯片组成。
·是一个线性的字节数组,每个字节都有其唯一的地址(数组索引)。
4 处理器
·中央处理单元(CPU),是解释存储在主存中指令的引擎。
·核心是一个大小只有一个字的存储设备(或寄存器),称为程序计数器(pc)。
·处理器从程序计数器指向的内存出读取指令,解释指令中的位,执行该指令指示的简单操作,然后更新pc。(围绕着主存,寄存器文件和ALU进行)
例子:运行hello程序
1)在键盘上输入字符串“./hello”后,shell程序将字符逐一读入寄存器,再把它存放到内存中。
2)shell执行一系列指令来加载可执行的hello文件,这些指令将hello目标文件中的代码和数据复制到主存。
3)处理器开始执行hello程序的main程序中的机器语言指令,这些指令将输出复制到寄存器文件,再从寄存器文件复制到显示设备。
4 高速缓存、存储设备形成层次结构
主要思想:上一层的存储器作为低一层存储器的高速缓存。
5 操作系统管理硬件
操作系统:应用程序和硬件之间插入的一层软件。所有应用程序对硬件的操作尝试都必须通过操作系统。
两个基本功能:1)防止硬件被失控的应用程序滥用。2)向应用程序提供简单一致的机制来控制复杂而又通常大不相同的低级硬件设备。
6 进程与线程
·操作系统会提供一种假象:好像系统上只有这一个程序在运行。程序看上去是独占地使用处理器、主存和I/O设备。这些假象是通过进程的概念来实现的。
·进程是操作系统对一个正在运行的程序的一种抽象,在一个系统上可以同时运行多个进程,而每个进程都好像在独占地使用硬件。并发运行:则是说,一个进程的指令和另一个进程的指令是交错执行的。
·无论是在单核还是多核系统中,一个CPU看上去都像是在并发地执行多个进程,这是通过处理器在进程间切换来实现的。操作系统实现这种交错执行的机制称为上下文交换。
·操作系统跟踪进程运行所需的所有状态信息。这种状态,也就是上下文,包括许多信息,比如pc和寄存器文件的当前值,以及主存的内容。当操作系统决定要把控制权从当前进程转移到某个新进程时,就会进行上下文切换。
·从一个进程到另一个进程的切换是由操作系统内核管理的,内核是操作系统常驻主存的部分。注:内核不是一个独立的进程。相反,它是系统管理全部进程所用代码和数据结构的集合。
·在现代操作系统中,一个进程实际上可以由多个称为线程的执行单元组成。每个线程都运行在进程的上下文中,并共享同样的代码和全局数据。
·由于网络服务器中对并行处理的需求,线程成为越来越重要的编程模型,因为多线程之间比多进程之间更容易共享数据。
7 虚拟内存
为每个进程提供假象,即每个进程都在独占地使用主存,每个进程看到的内存都是一致的,称为虚拟地址空间。
内核虚拟内存 :用户代码不可见的内存
用户栈(运行时创建):函数调用返回
共享库的内存映射区域
运行时堆(在运行时由malloc创建):动态扩展伸缩大小
读/写数据
只读的代码和数据:全局变量
基本思想:把一个进程虚拟内存的内容存储在磁盘上,然后用主存作为磁盘的高速缓存。
8 文件
文件就是字节序列。每个I/O设备,包括磁盘,键盘,显示器,甚至网络,都可以看成是文件。
9 Amdahl定律
主要思想:当我们对系统的某个部分加速时,其对系统整体性能的影响取决于该部分的重要性和加速度。
若系统执行某应用程序需要时间为Told。假设系统某部分所需执行时间与该时间的比例为a,而该部分的性能提升比例为k,即该部分初始所需时间为aTold,现在所需时间为(aTold)/k。因此,总的执行时间应为
Tnew=(1-a)Told+(aTold)/k=Tol[(1-a)+a/k]
由此,可以计算加速比S=Told/Tnew为:
S=1/((1-a)+a/k)
若考虑有趣的特殊情况,即k趋向于无穷时的效果,这就意味着,我们可以取系统的某一部分将其加速到一个点。该定律描述了改善任何过程的一般原则。
10 并发和并行
并发:指一个同时具有多个活动的系统。
并行:用并发来使一个系统运行得更快。
1)线程级并发
构建在进程这个抽象之上,我们能够设计出同时具有多个程序执行的系统,这就导致了并发。使用线程,我们能在一个进程中,执行多个控制流。这种并发执行只是模拟出来的,是通过使一台计算机在它正在执行的进程间快速切换来实现的。这种并发形式允许多个用户同时与系统交互。
超线程:同时多线程,允许一个CPU执行多个控制流的技术。比如,假设一个线程必须等到某些数据被加载到高速缓存中,那CPU就可以继续去执行另一个线程。
2)指令级并发
即现代处理器可以同时执行多条指令的属性。(重点在于流水线的使用)
流水线:将执行一条指令所需要的活动划分成不同的步骤,将处理器的硬件组织成一系列的阶段,每个阶段执行一个步骤。这些阶段可以并行的操作,用来处理不同指令的不同部分。能够达到接近于一个时钟周期一条指令的执行速率。
3)单指令,多数据并行
允许一条指令产生多个可以并行执行的操作。
(第一章只是粗略讲了一些基础概念和框架,具体细节在后面章节)
(第一章 完)