原作者Eli Bendersky's website (https://eli.thegreenplace.net/)
背景
对软件进行逆向分析时,通常对函数堆栈空间的分析是第一步,也是重要的步骤,文章主要对x-86架构的栈空间问题进行了基础性的描述,作为初学逆向很值得学习:
The stack analogy 栈空间类比
回到基本概念,栈空间通常被比喻一推叠放起来的碟子,无论放新的盘子还是取走一个盘子,都是从这推叠放的顶端操作,因此堆栈的操作部分也成为栈顶top of stack,栈的操作也类似分为入栈push和出栈pop。
Hardware stacks 实际硬件中的栈
一般来讲,栈是来自于memory的一段空间,入栈就是在把新的数据放到栈顶,而出栈就是把栈顶上的数据取走,然而这么说并没有明确究竟栈顶和memory的关系和位置。
The stack in x86
这里将解释上面困惑的原因,在于x86架构下栈的方向是“头朝下”,即从某一地址开始向低地址方向生长:
因此,我们说x86架构的栈顶值得是从memory中申请到的这段堆栈的地址的最低部分。当我们讨论它时,让我们看看x86汇编编程的一些常见习语如何映射到该图形表示形式。
Pushing and popping data with the stack pointer 通过SP指针压栈和出栈
x86架构保留以个特殊的寄存器用于栈的操作--ESP(Extend Stack Point)。SP指针的作用即一直指向栈顶:
在上图中,0x9080ABCC即是栈顶地址,esp指向的数据"foo"就位于栈顶位置。
使用“push”想栈顶压入数据,push操作首先对esp的地址值减4,并且将操作数存放到esp指向的位置,因此:
push eax
等价于
sub esp, 4
mov [esp], eax
按照之前栈结构图示中的esp位置,假设eax保存新的压栈数据0xDEADBEEF,push操作之后栈空间变为:
类似的,执行pop指令是从顶取走数据并替换其操作数,先保存栈顶位置之后地址值增加,换句话:
pop eax
等价于
mov eax, [esp]
add esp, 4
接上面的栈空间结构(push操作后),pop eax后的结果为:
这样,数值0xDEADBEEF就被写入了eax,同时发现0xDEADBEEF 的地址为0x9080ABC8。
Stack frames and calling conventions 栈结构和条用规则
分析以下C编写的汇编程序,可以发现很多有趣的模式。我们关心的主要是函数的参数是如何通过过栈传入的(当然在其他的一些架构或者调用方式中,参数是放在寄存器里),以及本地参数在栈空间的分布规则。
分析以下C程序代码
int foobar(int a, int b, int c)
{
int xx = a + 2;
int yy = b + 3;
int zz = c + 4;
int sum = xx + yy + zz;
return xx * yy * zz + sum;
}
int main()
{
return foobar(77, 88, 99);
}
当foobar函数被调用时,包括传入foobar的参数、函数的本地变量以及其他数据都将被保存到栈空间中。这一系列的数据都被称为函数的栈帧,那么在return函数执行前,foobar函数的栈帧结构为:
当调用函数时,首先将绿色的数据分配一段空间存储参数,蓝色的数据则是函数本身的压栈操作用于保存本地变量,使用gcc进行编译:
gcc -masm=intel -S z.c -o z.s
得到函数foobar的汇编代码,我们对其进行了注释:
_foobar:
; ebp must be preserved across calls. Since
; this function modifies it, it must be
; saved.
;
push ebp
; From now on, ebp points to the current stack
; frame of the function
;
mov ebp, esp
; Make space on the stack for local variables
;
sub esp, 16
; eax <-- a. eax += 2. then store eax in xx
;
mov eax, DWORD PTR [ebp+8]
add eax, 2
mov DWORD PTR [ebp-4], eax
; eax <-- b. eax += 3. then store eax in yy
;
mov eax, DWORD PTR [ebp+12]
add eax, 3
mov DWORD PTR [ebp-8], eax
; eax <-- c. eax += 4. then store eax in zz
;
mov eax, DWORD PTR [ebp+16]
add eax, 4
mov DWORD PTR [ebp-12], eax
; add xx + yy + zz and store it in sum
;
mov eax, DWORD PTR [ebp-8]
mov edx, DWORD PTR [ebp-4]
lea eax, [edx+eax]
add eax, DWORD PTR [ebp-12]
mov DWORD PTR [ebp-16], eax
; Compute final result into eax, which
; stays there until return
;
mov eax, DWORD PTR [ebp-4]
imul eax, DWORD PTR [ebp-8]
imul eax, DWORD PTR [ebp-12]
add eax, DWORD PTR [ebp-16]
; The leave instruction here is equivalent to:
;
; mov esp, ebp
; pop ebp
;
; Which cleans the allocated locals and restores
; ebp.
;
leave
ret
可以看到首先需要在内存上开辟一段栈空间,用于函数中各个参数(此函数为return, a, b, c),ebp永远指向返回地址,参战按照ebp不断增加;之后函数将本地变量(xx,yy,zz,sum)压栈。函数参数在堆栈中高于ebp(因此访问它们时为正偏移量),而局部变量在堆栈中低于ebp。