第17章 x86汇编程序基础
本文是看17章的笔记。方便自己回顾。汇编基础知识可以看王爽的《汇编语言》
本文环境我用的是虚拟机Centos 7 64位。相关笔记都是如此。
汇编编译
汇编求最大值
.section .data
data_items:
.long 3, 67, 34, 222, 45, 75, 54, 34, 44, 33, 22, 11, 66, 0
.section .text
.global _start
_start:
movl $0, %edi
movl data_items(,%edi, 4), %eax
movl %eax, %ebx
start_loop:
cmpl $0, %eax
je loop_exit
incl %edi
movl data_items(, %edi, 4), %eax
cmpl %ebx, %eax
jle start_loop
movl %eax, %ebx
jmp start_loop
loop_exit:
movl $1, %eax
int $0x80
as max.s -o max.o
ld max.o -o max
寻址方式
ADDRESS_OR_OFFSET(%BASE_OR_OFFSET,%INDEX,MULTIPLIER)
表示如下
FINAL_ADDRESS=ADDRESS_OR_OFFSET+BASE_OR_OFFSET+MULTIPLIERxINDEX
ADDRESS_OR_OFFSET 和 INDEX 必须是寄存器。
ELF 文件
三种类型:
- 可重定位的目标文件(例如:.o文件)
- 可执行文件 (例如:shell脚本)
- 共享库(例如:.so 文件)
组成部分:
ELF头(ELF header)、程序头表(Program header table)、节(section)和节头表(section header table)
ELF header 描述体系结构和操作系统等基本位置,并指出Section Header Table 和 Program Header Table 在文件中处于什么位置。
Section Header Table 可以找到每个Section在文件中的位置。在加载过程中用不到。
Program Header Table 保存了所有Segment的描述信息。在链接过程中用不到。
readelf 分析目标文件
用readelf 工具读出目标文件max.o 的ELF Header 和 Section Header
readelf -a max.o
hexdump 一般用来查看"二进制"文件的十六进制编码
hexdump -C max.o
.shstrtab 段保存着各Section的名字。.strtab 段保存着程序中用到的符号的没给你自,每个名字都是以Null结尾的字符串。
.bss 段通常是指用来存放程序中未初始化的全局变量和静态变量的一块内存区域.(C语言的全局变量如果在代码中没有初始化,就会在程序加载时用0初始化。).data段需要占用一部分空间保存初始值,而.bss 段则不需要。
.rel.text 告诉链接器指令中哪些地方需要做重定位。
.symtab 是符号表。Ndx列是每个符号所在的Section编号。各Section的编号见Section Header Table。value 列是每个符号所代表的地址,
objdump 工具 把程序中的机器指令反汇编(Disassemble)。
objdump -d max.o
[root@localhost linuxcyizhanshixuexi]# !o
objdump -d max.o
max.o: 文件格式 elf64-x86-64
Disassembly of section .text:
0000000000000000 <_start>:
0: bf 00 00 00 00 mov $0x0,%edi
5: 67 8b 04 bd 00 00 00 mov 0x0(,%edi,4),%eax
c: 00
d: 89 c3 mov %eax,%ebx
000000000000000f <start_loop>:
f: 83 f8 00 cmp $0x0,%eax
12: 74 12 je 26 <loop_exit>
14: ff c7 inc %edi
16: 67 8b 04 bd 00 00 00 mov 0x0(,%edi,4),%eax
1d: 00
1e: 39 d8 cmp %ebx,%eax
20: 7e ed jle f <start_loop>
22: 89 c3 mov %eax,%ebx
24: eb e9 jmp f <start_loop>
0000000000000026 <loop_exit>:
26: b8 01 00 00 00 mov $0x1,%eax
2b: cd 80 int $0x80
链接器修改这些指令,把其中的地址都改成加载时的内存地址,这些指令才能正确的执行。
readelf 分析可执行文件
我们把对目标文件,可执行文件的分析保存到两个文件。用对比工具看看两个结果的差异。
Type 变成了EXEC.
Entry point address(入口点地址)变成了 0x4000b0
多了两个Program Header ,少了两个Section Header
objdump -d max
strip 命令去除可执行文件中的符号信息,减少文件的尺寸而不影响运行。
strip max
strip 前 与 strip 后
readelf -a max
nm 命令 查看符号信息 nm max
objdump -d max 之后
[root@localhost linuxcyizhanshixuexi]# objdump -d max
max: 文件格式 elf64-x86-64
Disassembly of section .text:
00000000004000b0 <_start>:
4000b0: bf 00 00 00 00 mov $0x0,%edi
4000b5: 67 8b 04 bd dd 00 60 mov 0x6000dd(,%edi,4),%eax
4000bc: 00
4000bd: 89 c3 mov %eax,%ebx
00000000004000bf <start_loop>:
4000bf: 83 f8 00 cmp $0x0,%eax
4000c2: 74 12 je 4000d6 <loop_exit>
4000c4: ff c7 inc %edi
4000c6: 67 8b 04 bd dd 00 60 mov 0x6000dd(,%edi,4),%eax
4000cd: 00
4000ce: 39 d8 cmp %ebx,%eax
4000d0: 7e ed jle 4000bf <start_loop>
4000d2: 89 c3 mov %eax,%ebx
4000d4: eb e9 jmp 4000bf <start_loop>
00000000004000d6 <loop_exit>:
4000d6: b8 01 00 00 00 mov $0x1,%eax
4000db: cd 80 int $0x80
我们看到。指令中 原本是0x0,现在改成了0x6000dd。链接器怎么知道改这两处呢?根据目标文件中的.rel.text 段提供的重定位信息来改的。
重定位节 '.rela.text' 位于偏移量 0x1c0 含有 2 个条目:
Offset Info Type Sym. Value Sym. Name + Addend
000000000009 00020000000b R_X86_64_32S 0000000000000000 .data + 0
00000000001a 00020000000b R_X86_64_32S 0000000000000000 .data + 0
第一列offset 的值就是.text要修改的地方。在.text段中的相对地址是9和0x1a。
我们找下这个 9 跟 0x1a。
如下,我们看到程序入口地址是。4000b0
4000b0: bf 00 00 00 00 mov $0x0,%edi
9 ,dd 00 60
地址是4000b9
,距离 4000b0 的偏移是。9
。
4000b5: 67 8b 04 bd dd 00 60 mov 0x6000dd(,%edi,4),%eax
0x1a,dd 00 60
地址是4000ca
,距离 4000b0 的偏移是。0x1a
。
4000c6: 67 8b 04 bd dd 00 60 mov 0x6000dd(,%edi,4),%eax
参考资料:
- 书《Linux C编程一站式学习》http://akaedu.github.io/book/
*《链接原理》https://www.cnblogs.com/xiaomanon/p/4210016.html
*《可执行文件(ELF)格式的理解》https://www.cnblogs.com/xmphoenix/archive/2011/10/23/2221879.html
*《使用readelf和objdump解析目标文件》https://www.jianshu.com/p/863b279c941e
*《objdump命令》http://man.linuxde.net/objdump