当你写完一个helloworld程序,兴致勃勃地你通过gcc把它编译成一个由机器码(machine code)组成的可执行文件并在命令行输入./hello时,你看到屏幕上出现一行"Hello, world."看起来很酷,你也许会问这中间发生了什么?
·高级语言->汇编->机器码
当我们用高级语言,例如C语言,写了一个程序并用gcc -o hello helloworld.c命令将它编译成可执行文件时,会发生下面的一系列事情。
1.预处理(Preprocessing)。预处理器(Preprocessor)处理源文件中以#开头的预处理指令,从相应的系统文件中得到所需的内容并修改源文件。这一步可以用gcc-E helloworld.c-o hello.i实现。产生的是一个.i文件。
2.编译(Compilig)。简单来说就是编译器(Compiler)将第一步得到的文件翻译成一个以.s(或.asm)结尾的汇编文件。
3.汇编(Assembling)。汇编器(Assembler)将汇编文件翻译成机器指令文件并打包成可重定位目标文件(Relocatable Object Program),一种以.o结尾的文件。
4.链接(Linking)。合并.o文件及其所用到的库中的目标文件,生成可执行文件hello。
·CPU对机器码指令的处理
当你成功得到一个可执行文件之后,在命令行输入./hello,并满心欢喜地打入回车,此时这个由机器码组成的文件就被加载到内存中。
程序计数器(Program Counter)记录当前指令(一条机器码)的地址,在取完一条指令之后改变自己的值为下一跳要执行的指令的地址,依次取出每一条指令。每一条被取出的指令就放在指令寄存器(Instruction Register)中。
让我们再仔细看看!
通过取指(Fetch),译码(Decode)CPU就可以了解所要执行的机器码的内容。接下来运用算术逻辑单元(ALU)执行指令中的运算。接下来通过访存(Memory)读取/写入内存,通过写回(Write Back)写入寄存器。之后更新PC准备读取下一条指令。
·地址的抽象
在CPU和主存之间进行数据传输时,数据通过两条线交互:地址线(Address Bus),数据线(Data Bus),还有一条控制线(Control Bus)先不说。其中数据线很容易理解。就是将在相应地址/寄存器上的数据相互传递,但是如果我们将目光投向地址线,我们会发现这里用到了一层抽象,地址线上的地址通过一个译码器将地址信息翻译成具体要访问的的内存单元,这样看起来就像是每个内存单元有自己的地址一般。
如果我们的地址两位长度的A0, A1,那么地址00, 01, 10, 11分别就代表D0, D1, D2, D3。看起来就好像每个内存单元有了自己的地址一样!