计算机系统是由硬件和系统软件组成的,它们共同工作来运行应用程序。
我们从hello, world开始来认识计算机的执行变化。
案例:c代码
#include<stdio.h>
int main()
{
printf("hello, world\n");
return 0;
}
1.1 信息就是位 + 上下文
hello程序的生命周期是从一个源程序(源文件)开始的,即程序员编写的文本文件,保存为hello.c,源程序实际上就是一个由0和1组成的位(又称为比特)序列,8个位被组织成一组,称为字节。每个字节表示程序中的某些文本字符。
大部分的现代计算机系统都使用ASCII标准来表示文本字符,这种方式实际就是用一个唯一的单字节大小的整数值来表示每个字符。比如,图1.2中给出了hello.c程序的ASCII码表示。
例:ASCII码字符' a '不同进制的表示方式
二进制(Binary):0110 0001(逢二进一)
八进制(Octal):0141(二进制转化为八进制,从二进制的右边开始算,三位二进制表示为一位8进制,二进制位数不够,左边补零,八进制首位从零开始)
十进制(decimal):97
十六进制(hexadecimal):0 x 61 (二进制转化为十六进制,从二进制的右边开始算,四位二进制表示一位十六进制,二进制位数不够,左边补零,十六进制表示格式0x开始)
像hello.c这样只有ASCII字符构成的文件称为文本文件,所有其他文件都成为二进制文件。
文本文件:这类文件以文本的ASCII码形式存储在计算机中。它是以"行"为基本结构的一种信息组织和存储方式
二进制文件:这类文件以文本的二进制形式存储在计算机中,用户一般不能直接读懂它们,只有通过相应的软件才能将其显示出来。二进制文件一般是可执行程序、图形、图像、声音等等。
hello.c的表示方法说明了一个基本思想:系统中所有的信息——包括磁盘文件,内存中的程序,内存中存放的用户数据以及网络上传送的数据,都是由一串比特表示的。区分不同数据对象的唯一方法是我们读到这些数据对象时的上下文。比如,在不同的上下文中,一个同样的字节序列可能表示一个整数,浮点数,字符串或者机器指令。
1.2 程序被其他程序翻译成不同的格式
hello程序的生命周期是从一个高级c语言程序开始的,因为这种形式能够被人读懂,然而,为了在系统上运行hello.c程序,每条c语句都必须被其他程序转化为一系列的低级机器语言指令。然后这些指令按照一种称为可执行目标程序的格式打好包,并以二进制磁盘文件的形式存放起来。目标程序称为可执行目标文件。
在Unix系统上,从源文件到目标文件的转化是由编译器驱动程序完成的。
构建过程,如图1.3编译系统:
预处理阶段
预处理器(cpp)根据以字符#开头的命令,修改原始的C程序。比如hello.c中第1行的#include<stdio.h>命令告诉预处理器读取系统头文件stadio.h的内容,并把它直接插入程序文本中。结果就得到了另一个C程序,通常是以.i作为文件扩展名。
头文件一般用作对象的声明。
编译阶段
编译器(ccl)将文本文件hello.i翻译成文本文件hello.s,它包括一个汇编语言的程序。该程序包括函数main的定义,如下所示:
main:
subq $8, %rsp
movl $.LCO, %edi
call puts
movl $0, %eax
addq $8, %rsp
ret
定义中2~7行的每条语句都以一种文本格式描述了一条低级机器语言指令。汇编语句是非常有用的,因为它为不同高级语言的不同编译器提供了通用的输出语言。例如,C编译器和Fortran编译器产生的输出文件用的都是一样的汇编语言。
汇编阶段
接下来,汇编器(as)将hello.s翻译成机器语言指令,把这些指令打包成一种叫做可重定位木匾程序的格式,并且将结果保存在目标文件hello.o中,hello.o文件是一个二进制文件,它包含的17个字节是main的指令编码。如果我们在文本编辑器中打开hello.o文件,将看到一堆乱码。
链接阶段
请注意,hello程序调用了printf函数,它是每个C编译器都提供的标准C库中的一个函数。printf函数存在于一个名为printf.o的单独的预编译好了的目标文件中,而这个文件必须以某种方式合并到我们的hello.o程序中。链接器(ld)就负责处理这种合并。结果就得到hello文件。它是一个可执行目标文件,可以被加载到内存中,由系统执行。
1.3 了解编译器系统如何工作是大有益处的
优化程序性能:时间复杂度 + 空间复杂度
理解链接时出现的错误:例如链接器报告说它无法解析一个引用。 (静态变量 & 全局变量, 静态库与动态库, 库的顺序)
避免安全漏洞:缓冲区溢出错误是造成大多数网络和Internet服务器上安全漏洞的主要原因。
1.4 处理器读并解释储存在内存中的指令
可执行文件存放在磁盘上,要想在Unix系统上运行该可执行文件,我们将它的文件名输入到称为shell的应用程序中:
linux> ./hello
hello,world
linux>
shell是一个命令行解释器。
1.4.1 系统的硬件组成
CPU:中央处理单元;ALU:算术/逻辑单元; PC:程序计数器; USB:通用串行总线
1.总线
贯穿整个系统的是一组电子管道,称作总线,它携带信息字节并负责各个部件间传递。通常总线被设计成传送定长的字节块,也就是字(world)。字中的字节数(字长)是一个基本的系统参数,各个系统中都不相同。现在的大多数机器字长要么是4个字节(32位),要么是8个字节(64位)。
2. I/O设备
输入/输出(Input /Output ,简称I/O),指的是一切操作、程序或设备与计算机之间发生的数据
输入/输出设备模型传输过程。
最常见的I/O设备有打印机、硬盘、键盘和鼠标。从严格意义上来讲,它们中有一些只能算是输入设备(比如说键盘和鼠标);有一些只是输出设备(如打印机)。
所有储存器也可以算是输入/输出设备。如硬盘、软盘、光盘等。
3. 主存
主存储器(Main memory),简称主存。是计算机硬件的一个重要部件,其作用是存放指令和数据,并能由中央处理器(CPU)直接随机存取。从物理上来说,主存是由一组动态随机存取存储器芯片组成的。从逻辑上来说,存储器是一个线性的字节数组,每个字节都有其唯一的地址,这些地址是从零开始的。
4.处理器
中央处理器(CPU,Central Processing Unit)是一块超大规模的集成电路,是一台计算机的运算核心(Core)和控制核心( Control Unit)。它的功能主要是解释计算机指令以及处理计算机软件中的数据。
中央处理器主要包括运算器(算术逻辑运算单元,ALU,Arithmetic Logic Unit)和高速缓冲存储器(Cache)及实现它们之间联系的数据(Data)、控制及状态的总线(Bus)。它与内部存储器(Memory)和输入/输出(I/O)设备合称为电子计算机三大核心部件。
1.4.2 运行hello
1.5 高速缓存
1.6存储设备形成层次结构
1.7 操作系统管理硬件
操作系统有两个基本功能:
a:防止硬件被失控的应用程序滥用
b: 向应用程序提供简单一致的机制来控制复杂而又通常大而不同的低级硬件设备。操作系统通过几个抽象(进程,虚拟内存,文件)来实现这两个功能。
1.7.1 进程
进程的概念主要有两点:第一,进程是一个实体。每一个进程都有它自己的地址空间,一般情况下,包括文本区域(text region)、数据区域(data region)和堆栈(stack region)。文本区域存储处理器执行的代码;数据区域存储变量和进程执行期间使用的动态分配的内存;堆栈区域存储着活动过程调用的指令和本地变量。第二,进程是一个“执行中的程序”。程序是一个没有生命的实体,只有处理器赋予程序生命时(操作系统执行之),它才能成为一个活动的实体,我们称其为进程。
1.7.2 线程
通常在一个进程中可以包含若干个线程,当然一个进程中至少有一个线程,不然没有存在的意义。线程可以利用进程所拥有的资源,在引入线程的操作系统中,通常都是把进程作为分配资源的基本单位,而把线程作为独立运行和独立调度的基本单位,由于线程比进程更小,基本上不拥有系统资源,故对它的调度所付出的开销就会小得多,能更高效的提高系统多个程序间并发执行的程度。
1.7.3 虚拟内存
1.7.4 文件
文件就是字节序列。
1.8 系统之间利用网络通信
1.9 重要主题
1.9.1 Amdahl定律
Gene Amdahl , 计算领域的早期先锋之一,对提升系统某一部分性能所带来的效果做出了简单却又见地的观察。这个观察被称为Amdahl定律。该定律的主要思想是,当我们对系统的某个部分加速时,其对系统整体性能的影响取决于该部分的重要性与加速程度。若系统执行某应用程序需要时间为Told。 假设系统某部分所需执行时间与盖时间的比例为ɑ,而该部分性能提升比例为k。即该部分初始所需时间为ɑTold,现在所需时间为(ɑTold)/k。总的执行时间应为
举个例子,考虑这样一种情况,系统的某个部分初始耗时比例为60%(ɑ=0.6),其加速比例因子为3(k=3)。则我们可以获得的加速比为1/[0.4+0.6/3]=1.67倍。虽然我们对系统的一个主要部分做出了重大改进,但是获得的系统加速比却明显小于这部分的加速比。这就是Amdahl定律的主要观点——要想显著加速整个系统,必须提升全系统中相当大的部分的速度。
1.9.2 并发和并行
并发:指应用能够交替执行不同的任务,其实并发有点类似于多线程的原理,多线程并非是同时执行多个任务,如果你开两个线程执行,就是在你几乎不可能察觉到的速度不断去切换这两个任务,已达到"同时执行效果",其实并不是的,只是计算机的速度太快,我们无法察觉到而已
并行:指应用能够同时执行不同的任务,例:吃饭的时候可以边吃饭边打电话,这两件事情可以同时执行
1.9.3 计算机系统中抽象的重要性
在学习操作系统时,我们介绍了三个抽象:文件是对I/O设备的抽象,虚拟内存是对程序存储器的抽象,而进程是对一个正在运行的程序的抽象。我们再增加一个新的抽象:虚拟机,它提供对整个计算机的抽象,包括操作系统,处理器和程序。