上一篇已经得到了C语言入门程序对应的汇编程序。C语言程序:
#include <stdio.h>
int main()
{
printf("hello,world\n");
}
编译后的汇编程序:
.file "hello.c"
.intel_syntax
.def ___main; .scl 2; .type 32; .endef
.section .rdata,"dr"
LC0:
.ascii "hello,world\12\0"
.text
.globl _main
.def _main; .scl 2; .type 32; .endef
_main:
push ebp
mov ebp, esp
sub esp, 8
and esp, -16
mov eax, 0
add eax, 15
add eax, 15
shr eax, 4
sal eax, 4
mov DWORD PTR [ebp-4], eax
mov eax, DWORD PTR [ebp-4]
call __alloca
call ___main
mov DWORD PTR [esp], OFFSET FLAT:LC0
call _printf
leave
ret
.def _printf; .scl 2; .type 32; .endef
先看汇编程序的第一行:
.file "hello.c"
好像没见过这写法,什么意思?查资料去……
查资料途中,又看见一种ARM汇编,和上一篇提到的ATT汇编和Intel汇编是什么关系?
原来,ARM和X86是两种不同的CPU架构,在ARM架构的CPU上使用ARM汇编,在X86架构的CPU上使用X86汇编。而X86汇编又有两种语法格式,即ATT格式和Intel格式。(另外ATT汇编语法是跨平台的,还可以在其他架构的CPU上使用,比如Power架构。)
ATT语法中寄存器前面有%,如%eax,在Intel语法中则直接写成eax。(ARM汇编比X86汇编多许多寄存器,并且寄存器用R0、R1……表示。)
现在可以确定上面编译出来的是Intel格式的汇编程序了,再继续看第一行代码:
.file "hello.c"
经过查资料得知,这种“.xx”的符号都是汇编器as的指令,汇编器as即上一篇提到的gcc编译工作第3步——将.s文件汇编成.o目标文件——中使用的工具。下面是汇编器as的官方文档地址:
https://sourceware.org/binutils/docs/as/
所有“.xx”指令都能在文档中查到,添加注释如下:
.file "hello.c" /*指示as我们将要启动一个新的逻辑文件。*/
.intel_syntax /*使用英特尔汇编程序语法进行汇编。*/
.def ___main; .scl 2; /*.scl class 设置符号的存储类值。*/ .type 32; /* .type int 把整数int作为类型属性记录进符号表表项。*/ .endef /*.def name 开始为符号name定义调试信息;该定义一直扩展到.endef遇到指令为止。*/
.section .rdata,"dr" /* .section name[, "flags"] 使用.section命令将后续的代码汇编进一个定名为name的段。可选参数使用了引号,它将被视为该段的标志(flags)。每个标记是单个的字符。d:数据段,r:只读段。*/
LC0:
.ascii "hello,world\12\0" /*把汇编好的每个字符串(在字符串末不自动追加零字节)存入连续的地址。*/
.text /*通知as把后续语句汇编到编号为0的子段。*/
.globl _main /*使符号 _main 对连接器ld可见。*/
.def _main; .scl 2; .type 32; .endef
_main:
push ebp
mov ebp, esp
sub esp, 8
and esp, -16
mov eax, 0
add eax, 15
add eax, 15
shr eax, 4
sal eax, 4
mov DWORD PTR [ebp-4], eax
mov eax, DWORD PTR [ebp-4]
call __alloca
call ___main
mov DWORD PTR [esp], OFFSET FLAT:LC0
call _printf
leave
ret
.def _printf; .scl 2; .type 32; .endef
知道了这些指令的大概意思,现在来看代码主体:
_main:
push ebp
mov ebp, esp
sub esp, 8
and esp, -16
mov eax, 0
add eax, 15
add eax, 15
shr eax, 4
sal eax, 4
mov DWORD PTR [ebp-4], eax
mov eax, DWORD PTR [ebp-4]
call __alloca
call ___main
mov DWORD PTR [esp], OFFSET FLAT:LC0
call _printf
leave
ret
这些汇编指令看起来眼熟多了,ebp和eax这些寄存器是bp、ax寄存器的32位版本,它们的关系类似于ax和al。眼熟归眼熟,但除了知道 “call _printf” 指令是调用 “_printf” 子函数以及 “ret” 指令是结束 “_mian” 函数并返回之外,上面一堆指令的作用是啥?还是不知道。不过看汇编代码只是为了理解C语言的语法,而不是编译原理,所以这些与C语言源代码功能(打印“hello,world”)无关的内容就暂且不管了。
因此就剩下了一行代码:
call _printf
查了下printf函数的源码以及底层实现原理的东西,发现涉及到的知识还是挺多的,为了防止偏离目标方向太远,就先不研究它了。汇编中向屏幕输出字符串,直接向显存的某行某列写入内容就行了,代码例如:
data segment
db 'hello,world'
data ends
code segment
......
mov ax,0b800h
mov es,ax
mov bx,160*10+40*2 //在屏幕第11行第41列开始写入内容
mov si,0
mov cx,11
s:mov al,[si]
mov es:[bx],al
inc si
inc bx
inc bx
loop s
......
code ends
printf函数最终的实现原理也与之类似,只不过多了格式处理、获取权限等一些步骤。
好了,入门程序就先学到这里,下一篇开始学习C语言变量等内容。