C语言到汇编-结构

结构是一个或多个变量的集合,这些变量可能为不同的类型,为了处理的方便而将这些变量组织在一个名字之下。
比如,将坐标系中的x 坐标和y 坐标组织在一起作为一个“点”结构,或者将姓名、性别、年龄等信息组织在一起作为一个描述“人”的结构。

struct {
    int x;  /* x坐标 */
    int y;   /* y坐标 */
};

struct {
    char *name;
    int sex;
    int age;
};

上面代码是结构本身的声明。结构是一种数据类型,类似int 、double 之类的东西,声明一个int 类型的变量如下:

int a;

类似的,声明一个结构类型的变量格式如下:

struct {
    int x;
    int y; 
} a;

也可以给结构起个名字,或者叫标记,如下:

struct  point {  /* point 是结构的标记 */
    int x;
    int y; 
};

这样就可以用point 代替大括号里的内容,声明结构类型的变量就可以写作:

struct point a;

下面代码是错误的:

main(){ 
    struct point p;
    p.x = 1;
    p.y = 2;
}

struct point {
    int x;
    int y;
};

因为代码的下面部分是结构的声明,而main 函数中要使用这个结构,所以应该把结构的声明放在使用之前,正确代码如下:

struct point {
    int x;
    int y;
};

main(){ 
    struct point p;
    p.x = 1;
    p.y = 2;
}

这与int 等基本类型可以随意使用不同,因为结构是自定义类型。
上面这段正确代码编译后的汇编代码如下:

    .file   "struct.c"
    .intel_syntax
    .def    ___main;    .scl    2;  .type   32; .endef
    .text
.globl _main
    .def    _main;  .scl    2;  .type   32; .endef
_main:
    push    ebp
    mov ebp, esp
    sub esp, 24
    and esp, -16
    mov eax, 0
    add eax, 15
    add eax, 15
    shr eax, 4
    sal eax, 4
    mov DWORD PTR [ebp-12], eax
    mov eax, DWORD PTR [ebp-12]
    call    __alloca
    call    ___main
    mov DWORD PTR [ebp-8], 1
    mov DWORD PTR [ebp-4], 2
    leave
    ret

这段代码中并没有能体现原代码中声明的那个点结构的代码,也就是代码:

struct point {
    int x;
    int y;
};

在编译后就没了。原代码与下面代码:

main(){ 
    int x = 1;
    int y = 2;
}

在编译后并无任何不同。这与int 等基础类型也很相似,定义或声明一个int 类型的变量,在编译后的汇编代码中也不存在“int ”这个东西,而是在给变量分配内存空间时会按照int 类型的长度分配4个内存单元(具体长度与机器有关)。若是定义了一个char 类型的变量,那么在分配内存时就会为变量分配1个内存单元。
所以,必然有一个地方存储着有关“结构”的描述内容,编译器才能根据结构描述直接为结构类型的变量分配内存空间,而“结构”也才能不在编译后的代码中存在。相关内容可以参考C语言的“符号表和类型系统”。
再来看一个例子:

struct person {
    char *name;
    char sex;
    int age;
};

main(){ 
    struct person p;
    p.name = "YCY";
    p.sex = 1;
    p.age = 21;
    printf("%d", sizeof(p));
}

编译后的汇编代码:

    .section .rdata,"dr"
LC0:
    .ascii "YCY\0"
LC1:
    .ascii "%d\0"
    .text
_main:
    mov DWORD PTR [ebp-24], OFFSET FLAT:LC0
    mov BYTE PTR [ebp-20], 1
    mov DWORD PTR [ebp-16], 21
    mov DWORD PTR [esp+4], 12
    mov DWORD PTR [esp], OFFSET FLAT:LC1
    call    _printf
    leave
    ret

代码中存储char 类型的值用了4 个字节,而char 指针类型则是用4个字节存储的字符数组首地址。可见,编译后的代码会根据结构声明为结构成员分配内存,同时还会考虑内存对齐的问题。所以结构的长度并不一定等于结构内每个数据类型的长度之和。
本章剩余内容有:

1.结构与函数
2.结构数组
3.自引用结构
4.类型定义
5.联合
6.位字段

下面分别举例进行说明。
1.结构与函数:

#include <stdio.h>

struct  point {  /* point 是结构的标记 */
    int x;
    int y; 
};

struct point addpoint(struct point p1, struct point p2) 
 { 
 p1.x += p2.x; 
 p1.y += p2.y; 
 return p1; 
 }
 
main(){ 
    struct point p1 = {1,2};
    struct point p2 = {3,4};
    addpoint(p1, p2);
}

上面例子中,函数的参数和返回值都是结构类型。编译后汇编代码:

    .text
_addpoint:
    push    ebp
    mov ebp, esp
    mov eax, DWORD PTR [ebp+16]
    add DWORD PTR [ebp+8], eax
    mov edx, DWORD PTR [ebp+20]
    lea eax, [ebp+12]
    add DWORD PTR [eax], edx
    mov eax, DWORD PTR [ebp+8]
    mov edx, DWORD PTR [ebp+12]
    pop ebp
    ret
_main:
    mov DWORD PTR [ebp-8], 1
    mov DWORD PTR [ebp-4], 2
    mov DWORD PTR [ebp-16], 3
    mov DWORD PTR [ebp-12], 4
    mov eax, DWORD PTR [ebp-16]
    mov edx, DWORD PTR [ebp-12]
    mov DWORD PTR [esp+8], eax
    mov DWORD PTR [esp+12], edx
    mov eax, DWORD PTR [ebp-8]
    mov edx, DWORD PTR [ebp-4]
    mov DWORD PTR [esp], eax
    mov DWORD PTR [esp+4], edx
    call    _addpoint
    leave
    ret

可以看到,结构无论是作为参数还是返回值,结构成员的值都是直接存储在栈内存或者寄存器之中的,与一般变量并无不同。
2.结构数组:

struct key { 
char *word; 
int count; 
} keytab[] = { 
"auto", 0, 
"break", 0, 
"case", 0, 
"char", 0, 
"const", 0, 
"continue", 0, 
"default", 0, 
"unsigned", 0, 
"void", 0, 
"volatile", 0, 
"while", 0 
}; 
 
main(){ 
    int length = sizeof(keytab);
    int i = 0;
    for(; i<length; i++){
        if(keytab[i].word=="char")
            keytab[i].count++;          
    }
}

上述代码声明了key 结构的数组keytab,并进行了初始化。main 函数中遍历结构数组keytab,遇到关键字char 则将其数量加1。编译后汇编代码如下:

    .section .rdata,"dr"
LC0:
    .ascii "auto\0"
LC1:
    .ascii "break\0"
LC2:
    .ascii "case\0"
LC3:
    .ascii "char\0"
LC4:
    .ascii "const\0"
LC5:
    .ascii "continue\0"
LC6:
    .ascii "default\0"
LC7:
    .ascii "unsigned\0"
LC8:
    .ascii "void\0"
LC9:
    .ascii "volatile\0"
LC10:
    .ascii "while\0"
.globl _keytab
    .data
    .align 32
_keytab:
    .long   LC0
    .long   0
    .long   LC1
    .long   0
    .long   LC2
    .long   0
    .long   LC3
    .long   0
    .long   LC4
    .long   0
    .long   LC5
    .long   0
    .long   LC6
    .long   0
    .long   LC7
    .long   0
    .long   LC8
    .long   0
    .long   LC9
    .long   0
    .long   LC10
    .long   0
    .text
_main:
    mov DWORD PTR [ebp-4], 88
    mov DWORD PTR [ebp-8], 0
L2:
    mov eax, DWORD PTR [ebp-8]
    cmp eax, DWORD PTR [ebp-4]
    jge L3
    mov eax, DWORD PTR [ebp-8]
    cmp DWORD PTR _keytab[0+eax*8], OFFSET FLAT:LC3
    jne L4
    mov eax, DWORD PTR [ebp-8]
    inc DWORD PTR _keytab[4+eax*8]
L4:
    lea eax, [ebp-8]
    inc DWORD PTR [eax]
    jmp L2
L3:
    leave
    ret

由此可见,结构数组与普通数组差别不大,只是把结构成员按普通数组成员的形式进行了展开而已。
3.自引用结构

struct tnode { /* the tree node: */ 
 char *word; /* points to the text */ 
 int count; /* number of occurrences */ 
 struct tnode *left; /* left child */ 
 struct tnode *right; /* right child */ 
 };

main(){ 
    struct tnode node1 = {"char",1,NULL,NULL};
    struct tnode node2 = {"void",2,NULL,NULL};
    struct tnode node3 = {"case",3,&node1,&node2};
}

上述代码中,node1node2变量类似int x中的x变量,代表的是等号后面整个大括号里的内容,所以要用&取地址,而不像数组名可以直接赋值给指针类型的变量。
编译后的汇编代码如下:

LC0:
    .ascii "char\0"
LC1:
    .ascii "void\0"
LC2:
    .ascii "case\0"
    .text
_main:
    mov DWORD PTR [ebp-24], OFFSET FLAT:LC0
    mov DWORD PTR [ebp-20], 1
    mov DWORD PTR [ebp-16], 0
    mov DWORD PTR [ebp-12], 0
    mov DWORD PTR [ebp-40], OFFSET FLAT:LC1
    mov DWORD PTR [ebp-36], 2
    mov DWORD PTR [ebp-32], 0
    mov DWORD PTR [ebp-28], 0
    mov DWORD PTR [ebp-56], OFFSET FLAT:LC2
    mov DWORD PTR [ebp-52], 3
    lea eax, [ebp-24]
    mov DWORD PTR [ebp-48], eax
    lea eax, [ebp-40]
    mov DWORD PTR [ebp-44], eax
    leave
    ret

可见,自引用结构只是将(另一个)结构的地址作为值赋给了结构中指向本结构的指针变量。
4.类型定义
C 语言提供了一个称为 typedef 的功能,它用来建立新的数据类型名,例如,声明:

typedef int Length;

Length 定义为与 int 具有同等意义的名字。类型 Length 可用于类型声明、类型转换等,它和类型 int 完全相同,例如:

typedef int Length;
main(){ 
    Length len1 = 10; 
    Length len2 = 20;
    Length *lengths[] = {&len1, &len2};
}

类型定义同样在编译后的汇编代码中不存在。
5.联合

union number { 
 int ivalue; 
 float fvalue; 
 char *svalue; 
 };

联合声明形式和结构类似,只是把struct 关键字换成了union 。上面的联合声明表示,这个联合类型的变量可以存储为三种不同的类型值,但它们共用一个内存位置。例如:

union number { 
 int ivalue; 
 float fvalue; 
 char *svalue; 
 };

main(){ 
    union number num;
    num.ivalue = 1;
    num.fvalue = 1.1;
    num.svalue = "hello";
}

编译后的汇编代码:

    .section .rdata,"dr"
LC1:
    .ascii "hello\0"
    .text
_main:
    mov DWORD PTR [ebp-4], 1
    mov eax, 0x3f8ccccd
    mov DWORD PTR [ebp-4], eax
    mov DWORD PTR [ebp-4], OFFSET FLAT:LC1
    leave
    ret

可见,无论给联合中的哪个成员变量赋值,结果都是存在同一个内存位置[ebp-4]中,访问时得到的是最后一次存入的内容。
6.位字段
类似汇编中的标志寄存器flag,用每一个二进制位来表示特定的信息。位字段(bit-field),或简称字段,是“字”中相邻位的集合。“字”(word)是单个的存储单元,它同具体的实现有关。

struct { 
 unsigned int is_keyword : 1; 
 unsigned int is_extern : 1; 
 unsigned int is_static : 1; 
 } flags;

main(){ 
    flags.is_extern = 0;
    flags.is_static = 1;
    if (flags.is_extern == 0)
        printf("hello, world");
    if (flags.is_static == 1)
        printf("hello, world");
}

编译后的汇编代码为:

    .section .rdata,"dr"
LC0:
    .ascii "hello, world\0"
    .text
_main:
    and BYTE PTR _flags, -3
    or  BYTE PTR _flags, 4
    movzx   eax, BYTE PTR _flags
    shr al
    movzx   eax, al
    and eax, 1
    test    eax, eax
    jne L2
    mov DWORD PTR [esp], OFFSET FLAT:LC0
    call    _printf
L2:
    movzx   eax, BYTE PTR _flags
    shr al, 2
    movzx   eax, al
    and eax, 1
    cmp eax, 1
    jne L3
    mov DWORD PTR [esp], OFFSET FLAT:LC0
    call    _printf
L3:
    leave
    ret
    .comm   _flags, 16   # 4

这里存储位字段使用了16位,也即一个“字”的长度。
几个新汇编指令:
movax:数据传送指令mov的变体。无符号扩展,并传送。
test:将两个操作数进行逻辑与运算,并根据运算结果设置相关的标志位。test命令的两个操作数不会被改变。运算结果在设置过相关标记位后会被丢弃。test的其中一个功能是:若运算结果为0,则设置汇编标志寄存器的zf位为0。因此,代码:

test    eax, eax
jne L2

可以测试寄存器eax 是否为0,当eax 所有位都为0时,两个eax 进行逻辑与运算结果才为0,并设置zf 为0,此时jne 指令不会跳转,其它情况都会跳转到L2

好了,第六章的内容先学到这里。下一篇开始学习新的内容。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,753评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,668评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 166,090评论 0 356
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,010评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,054评论 6 395
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,806评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,484评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,380评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,873评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,021评论 3 338
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,158评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,838评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,499评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,044评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,159评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,449评论 3 374
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,136评论 2 356

推荐阅读更多精彩内容