C语言到汇编-入门

上一篇已经得到了C语言入门程序对应的汇编程序。C语言程序：

#include <stdio.h>
int main()
{
    printf("hello,world\n");
}

编译后的汇编程序：

    .file   "hello.c"
    .intel_syntax
    .def    ___main;    .scl    2;  .type   32; .endef
    .section .rdata,"dr"
LC0:
    .ascii "hello,world\12\0"
    .text
.globl _main
    .def    _main;  .scl    2;  .type   32; .endef
_main:
    push    ebp
    mov ebp, esp
    sub esp, 8
    and esp, -16
    mov eax, 0
    add eax, 15
    add eax, 15
    shr eax, 4
    sal eax, 4
    mov DWORD PTR [ebp-4], eax
    mov eax, DWORD PTR [ebp-4]
    call    __alloca
    call    ___main
    mov DWORD PTR [esp], OFFSET FLAT:LC0
    call    _printf
    leave
    ret
    .def    _printf;    .scl    2;  .type   32; .endef

先看汇编程序的第一行：

    .file   "hello.c"

好像没见过这写法，什么意思？查资料去……
查资料途中，又看见一种ARM汇编，和上一篇提到的ATT汇编和Intel汇编是什么关系？
原来，ARM和X86是两种不同的CPU架构，在ARM架构的CPU上使用ARM汇编，在X86架构的CPU上使用X86汇编。而X86汇编又有两种语法格式，即ATT格式和Intel格式。（另外ATT汇编语法是跨平台的，还可以在其他架构的CPU上使用，比如Power架构。）
ATT语法中寄存器前面有%，如%eax，在Intel语法中则直接写成eax。（ARM汇编比X86汇编多许多寄存器，并且寄存器用R0、R1……表示。）
现在可以确定上面编译出来的是Intel格式的汇编程序了，再继续看第一行代码：

    .file   "hello.c"

经过查资料得知，这种“.xx”的符号都是汇编器as的指令，汇编器as即上一篇提到的gcc编译工作第3步——将.s文件汇编成.o目标文件——中使用的工具。下面是汇编器as的官方文档地址：
https://sourceware.org/binutils/docs/as/
所有“.xx”指令都能在文档中查到，添加注释如下：

    .file   "hello.c"  /*指示as我们将要启动一个新的逻辑文件。*/
    .intel_syntax  /*使用英特尔汇编程序语法进行汇编。*/
    .def    ___main;    .scl    2;  /*.scl class 设置符号的存储类值。*/   .type   32;  /* .type int 把整数int作为类型属性记录进符号表表项。*/   .endef  /*.def name 开始为符号name定义调试信息；该定义一直扩展到.endef遇到指令为止。*/
    .section .rdata,"dr"  /* .section name[, "flags"] 使用.section命令将后续的代码汇编进一个定名为name的段。可选参数使用了引号，它将被视为该段的标志(flags)。每个标记是单个的字符。d:数据段，r:只读段。*/
LC0:
    .ascii "hello,world\12\0"  /*把汇编好的每个字符串(在字符串末不自动追加零字节)存入连续的地址。*/
    .text  /*通知as把后续语句汇编到编号为0的子段。*/
.globl _main  /*使符号 _main 对连接器ld可见。*/
    .def    _main;  .scl    2;  .type   32; .endef
_main:
    push    ebp
    mov ebp, esp
    sub esp, 8
    and esp, -16
    mov eax, 0
    add eax, 15
    add eax, 15
    shr eax, 4
    sal eax, 4
    mov DWORD PTR [ebp-4], eax
    mov eax, DWORD PTR [ebp-4]
    call    __alloca
    call    ___main
    mov DWORD PTR [esp], OFFSET FLAT:LC0
    call    _printf
    leave
    ret
    .def    _printf;    .scl    2;  .type   32; .endef

知道了这些指令的大概意思，现在来看代码主体：

_main:
    push    ebp
    mov ebp, esp
    sub esp, 8
    and esp, -16
    mov eax, 0
    add eax, 15
    add eax, 15
    shr eax, 4
    sal eax, 4
    mov DWORD PTR [ebp-4], eax
    mov eax, DWORD PTR [ebp-4]
    call    __alloca
    call    ___main
    mov DWORD PTR [esp], OFFSET FLAT:LC0
    call    _printf
    leave
    ret

这些汇编指令看起来眼熟多了，ebp和eax这些寄存器是bp、ax寄存器的32位版本，它们的关系类似于ax和al。眼熟归眼熟，但除了知道 “call _printf” 指令是调用 “_printf” 子函数以及 “ret” 指令是结束 “_mian” 函数并返回之外，上面一堆指令的作用是啥？还是不知道。不过看汇编代码只是为了理解C语言的语法，而不是编译原理，所以这些与C语言源代码功能（打印“hello,world”）无关的内容就暂且不管了。
因此就剩下了一行代码：

call    _printf

查了下printf函数的源码以及底层实现原理的东西，发现涉及到的知识还是挺多的，为了防止偏离目标方向太远，就先不研究它了。汇编中向屏幕输出字符串，直接向显存的某行某列写入内容就行了，代码例如：

data segment
db 'hello,world'
data ends

code segment
......
mov ax,0b800h
mov es,ax
mov bx,160*10+40*2  //在屏幕第11行第41列开始写入内容
mov si,0
mov cx,11
s:mov al,[si]
mov es:[bx],al
inc si
inc bx
inc bx
loop s
......
code ends

printf函数最终的实现原理也与之类似，只不过多了格式处理、获取权限等一些步骤。
好了，入门程序就先学到这里，下一篇开始学习C语言变量等内容。

C语言到汇编-入门

推荐阅读更多精彩内容