程序员在日常码代码的时候往往会遇到特别难缠的Bug,在无计可施的时候往往会想:我凭实力写出的Bug,为什么还要我去Debug呢? 我们谨记“我们不生产Bug,我们只是Bug的搬运工”的办事宗旨,时刻秀出各种各样的骚操作。然而操作虽骚也要讲究效率,毕竟效率是衡量一个程序员能力的重要因素。
言归正传,程序员在遇到Bug的时候,如果能够理解C函数的底层调用原理并且能够结合这些原理去分析定位,那么对解决疑难问题会有很大帮助。退一步讲,C函数的调用原理也是大厂面试的一个高频考点,面试官也热衷于利用这些基础、重要又容易被忽视的问题来考察面试者。我们只有做到知其然也知其所以然,平时多下一些功夫,才能在面试的时候不会显得那么尴尬。
思想工作做完后,现在我们开始进入正题。。。
在本文中我们以Intel x86体系架构为例,并且使用 C 风格的函数调用约定(cdecl)来探讨C函数调用原理。cdecl是C declaration的缩写,表示C语言默认的函数调用方式,其重要特征是所有参数从右往左依次入栈,如果想近一步了解可以移步到维基百科查看,这里就不再赘述。 大家都知道C函数调用是通过栈来实现,在栈中存放该函数的参数和局部变量,但是栈究竟如何存放参数或者具体实现细节是什么可能部分人就开始抓耳挠腮了。这些细节问题就像一个个缓坡,爬过去很容易,但是很多人都缺乏要爬过去的意识,在山脚下就停滞不前了。只有少数人会坚定不移地继续爬坡,对比之下人与人的差距就慢慢拉开了。
回归正题,C函数调用过程都会在内存中创建一段连续的空间,我们把这段连续空间取名----栈帧(stack frame)。栈帧其实就是栈,故具有栈的“后进先出”的特性。栈帧与栈帧在内存分布上是连续的。**C函数调用可以简单理解为在原栈帧基础上建立新栈帧的过程,而C函数返回可以理解为删除对应栈帧的过程。下图是一个处于栈顶部的一个单个栈帧:
如上图所示,有三个CPU寄存器进入现场。它们分别为esp(stack pointer,栈指针寄存器)、ebp(base pointer,基址指针寄存器)和eax(32位通用数据寄存器)。 esp内存放着一个指针,该指针指向的地址是不断变化的,原因在于栈的东西在程序执行过程中需要不断推入和弹出,最终指针会指向栈中的最后一个被推入的数据,换句话说指针始终指向栈的顶部。 ebp内也存放着一个指针,它指向到一个当前运行的函数的栈帧内的固定位置,并且它为参数和局部变量的访问提供一个稳定的参考点(基址)。只有当开始或者结束调用一个函数时,ebp的内容才会发生变化。
因此,我们可以很容易地处理在栈中的从 ebp开始偏移后的每个数据。 eax寄存器惯例被用来转换大多数C数据类型返回值给调用者。 承接上图,从栈顶到栈底内存地址是逐渐递增的,也可以说栈帧是向低地址方向扩展的。以ebp基址为参考点,向栈顶方向内存地址依次递减4字节,向栈底方向内存地址依次递增4字节。为什么是4字节呢?因为这里存在一个4字节对齐问题。x86体系架构是32位的,1字节8位,4字节正好32位,而32位机器的寄存器都是32位的,正好一次处理就完成,CPU在读取内存数据的时候4字节对齐会取得更快的速度。
x86架构的C编译器默认使用cdecl调用约定,而该约定其中一条规定:调用方按从右到左的顺序将函数参数放入栈中。从右到左在栈中放入参数的一个结果是,如果函数被调用,最左边的(第一个)参数将始终位于栈顶。****这样无论该函数需要多少个参数,我们都可轻易找到第一个参数。
实际参数往上是被调函数的返回地址和调用者的EBP,前一个栈帧的地址(保存的 ebp 值)和函数退出才会运行的指令的地址(返回地址)。它们一起确保了函数能够正常返回,从而使程序可以继续正常运行。栈帧的顶部是函数的局部变量,局部变量是从上到下依次入栈。
由于篇幅限制,今天先普及一下C函数调用原理的基本概念,后续文章会继续剖析C函数具体的调用和返回过程,敬请期待!