通过阅读汇编代码,我们能够理解编译器的优化能力,并分析出代码中潜在的低效率。
一、机器级代码
在整个编译过程中,编译器会完成大部分工作,将把C提供的相对比较抽象的执行模型表示的程序转化为处理器执行的非常基本的指令。与目标代码相比,汇编代码是可读性更好的文本格式表示。能够理解汇编代码以及它是如何与原始C代码相对应,是理解计算机如何执行程序的关键一步。
对C程序员屏蔽的处理器状态可见的
- 程序计数器(%eip):表示将要执行下一条指令在存储器中的地址
- 整数寄存器文件包含8个被命名的位置,分别存储32位的值。这些寄存器可以存储地址(对应于C的指针)或整数数据。有的寄存器用来记录某些重要的程序状态,其他寄存器用来保存临时数据。
- 条件寄存器保存最近执行的算术指令状态,实现控制流中的条件变化,比如if或while
- 浮点寄存器文件包含8个位置,用来存放浮点数据
(1)代码示例
假设我们写了一个C代码文件code.c,包含下面这样的过程定义
int accum = 0;
int sum(int x, int y)
{
int t = x + y;
acum += t;
return t;
}
在命令行执行”-S“选项,看到C编译器产生的汇编代码
unix> gcc -O2 -S code.c
编译器产生一个汇编文件code.s,不做其他近一步工作
汇编代码文件包含各种声明
sum:
pushl %ebp
movl %esp,%ebp
mov1 12(%ebp),%eax
addl 8(%ebp),%eax
addl %eax,accum
mov1 %ebp,%esp
pop1 %ebp
ret
上面代码中每个缩进去的行都对应于一条机器指令。比如pushl 指令表示应该将寄存器%ebp的内容压入栈中。
(2)访问信息
一个IA32中央处理单元(cpu)包含一组8位值的寄存器,这些寄存器用来存储整数数据和指针。下图显示了8个寄存器,以%e开头。在过程处理中,对前三个寄存器(%eax,%ecx和%edx)的保存和恢复惯例将不同于接下来的三个寄存器(%ebx,%edi,%esi),最后两个寄存器(%ebp和%esp)保存着指向栈中重要位置的指针,只有根据栈惯例的标准才能修改这两个寄存器中的值
(a)操作指示符
大多数指令都有一个或多个操作数,指示出执行一个操作中药引用的源数据值,以及放置结果的目的位置。源数据值可以以常数形式给出,或是从寄存器或存储器中读出,结果可以存放在寄存器或存储器中。
各种操作数可能被分为三种类型。
-
立即数,也就是常数值。
-577或$0x1F
- 寄存器,某个寄存器中的内容
- 存储器引用,根据计算出来的地址(有效地址)访问某个存储器位置。
有多种寻址模式:允许不同形式的存储器引用。立即数偏移,基址寄存器,变之或索引寄存器,伸缩因子(必需是1、2、4、8)。
(3)数据传送指令
最频繁的指令是执行数据传送指令。操作符指令能够完成许多机器中要好几条指令才能完成的功能。下图列出一些重要的数据传送指令,最常用的是传送双字的movl指令。
源操作数指令一个值,它可以是立即数,可以存放在寄存器中,也可以存放在存储器中。目的操作数指定一个位置,它可以是寄存器,也可以是存储器地址。
第一个是原操作数,第二个是目的操作数。
movb指令是类似的,除了它只传送一个字节。movw传送两个字节。movsbl和movzbl指令负责拷贝一个字节,并设置目的操作数中其余的位。movsbl指令的源操作数时单字节的,它执行符号扩展到32位(将高24位设置为源字节的最高位),然后拷贝到双字的目的中。movzbl指令的源操作数时单字节的,在前面加24个0扩展到32位,并将结果拷贝到双字的目的中。
pushl和popl指令都只有一个操作数----同于压入的数据源和用于弹出的目的数据。程序栈存放在储存器中某个区域。%esp保存栈顶元素的地址
(4) 算术和逻辑操作
(a)加载有效地址
加载有效地址(leal)实际上是movl指令的变形,从存储器读数据到寄存器,实际上根本没有引用存储器。第一个操作看上去是一个寄存器引用,但该指令并不是从指定的位置读入数据,而是将有效地址写入到目的操作数(如寄存器)。C中&S说明这种操作,为后面的存储器引用产生指针。例子,如果寄存器%eax值为x,指令leal 7(%edx,%eax ,4),%eax将设置寄存器%eax的值为x,那么leal 7(%edx,%edx,4),%eax将设置%eax的值为5x+7。注意目的操作数必须是寄存器。
(b)一元和二元操作
第二类操作是一元操作,只有一个操作数,即做源,也作目的。这个操作数可以是一个寄存器,也可以是一个存储器位置。比如说,指令incl(%esp)会使栈顶元素加1。这种说法让人想起C中的加1运算符(++)和减1运算符(--)
第三类是二元操作,第二个操作数既是源又是目的。这种语法让人想起C中像+=这样的赋值运算符。注意,源操作数是第一个,目的操作数时第二个,这是不可交换操作持有的。例如指令subl %eax,%edx使寄存器%edx的值减去%eax中的值。第一个操作可以是立即数,寄存器或存储器位置。第二个操作数可以是寄存器或存储器围桌。不过movl指令一样,两个操作数不能同时都是存储器位置。
(c)位移操作
先给出位移量,然后是待位移的值,可以进行算术或逻辑右移。移位量用单个字节编码。位移量可以是一个立即数,或者存放在单字节寄存器中%cl中。左移指令:sall,shll。两者效果都一样,都是将右边填上0。右移指令sarl执行算术移位(填上符号位
,而shrl执行逻辑位移(填上0)