Mach-O文件介绍之loadcommand

上一篇博客介绍了mach_header相关内容,Mach-O文件介绍之mach_header。这篇博客主要介绍Mach-O 的加载命令。

Load command

Mach-O文件的主要功能在于加载命令(load command)。加载命令紧跟在文件头之后,文件头中的两个字段——ncmds和sizeofncmds——用于解析加载命令。

每一条指令都采用“类型——长度——值”的格式:32位的cmd值(表示类型),32位的cmdsize值(32位二进制位4的倍数,64位二进制位8的倍数),以及命令本身(有cmdsize指定的任意长度)。有一些命令是由内核加载器(定义在bsd/kern/mach_loader.c文件中)直接使用的,其他命令是由动态连接器处理的。

内核加载器命令

加载过程在内核的部分负责新进程的基本设置——分配虚拟内存,创建主线程,以及处理任何可能的代码签名/加密的工作。然而对于动态链接的可执行文件(大部分可执行文件都是动态链接的)来说,真正的库加载和符号解析的工作都是通过LC_LOAD_DYLINKER命令指定的动态连接器在用户态完成的。控制权会装交给连接器,链接器进而接着处理文件头中的其他加载命令。
加载命令总共有30多条。下表列出了内核加载器使用的命令

image1.jpg

下面详细讨论这些加载命令。

1、LC_SEGMENT以及进程虚拟内存设置

LC_SEGMENT(或LC_SEGMENT_64)命令是最主要的加载命令,这条命令知道内核如何设置新运行的进程的内存空间。这些 segment直接从Mach-O二进制文件加载到内存中。
每一条LC_SEGMENT命令都提供了段布局的所有必要细节信息,如下表:


image2.jpg

Objectice-C中segment加载命令的定义如下:

/*
 * The segment load command indicates that a part of this file is to be
 * mapped into the task's address space.  The size of this segment in memory,
 * vmsize, maybe equal to or larger than the amount to map from this file,
 * filesize.  The file is mapped starting at fileoff to the beginning of
 * the segment in memory, vmaddr.  The rest of the memory of the segment,
 * if any, is allocated zero fill on demand.  The segment's maximum virtual
 * memory protection and initial virtual memory protection are specified
 * by the maxprot and initprot fields.  If the segment has sections then the
 * section structures directly follow the segment command and their size is
 * reflected in cmdsize.
 */
struct segment_command { /* for 32-bit architectures */
uint32_t cmd; /* LC_SEGMENT */
uint32_t cmdsize; /* includes sizeof section structs */
char segname[16]; /* segment name */
uint32_t vmaddr; /* memory address of this segment */
uint32_t vmsize; /* memory size of this segment */
uint32_t fileoff; /* file offset of this segment */
uint32_t filesize; /* amount to map from the file */
vm_prot_t maxprot; /* maximum VM protection */
vm_prot_t initprot; /* initial VM protection */
uint32_t nsects; /* number of sections in segment */
uint32_t flags; /* flags */
};

/*
 * The 64-bit segment load command indicates that a part of this file is to be
 * mapped into a 64-bit task's address space.  If the 64-bit segment has
 * sections then section_64 structures directly follow the 64-bit segment
 * command and their size is reflected in cmdsize.
 */
struct segment_command_64 { /* for 64-bit architectures */
uint32_t cmd; /* LC_SEGMENT_64 */
uint32_t cmdsize; /* includes sizeof section_64 structs */
char segname[16]; /* segment name */
uint64_t vmaddr; /* memory address of this segment */
uint64_t vmsize; /* memory size of this segment */
uint64_t fileoff; /* file offset of this segment */
uint64_t filesize; /* amount to map from the file */
vm_prot_t maxprot; /* maximum VM protection */
vm_prot_t initprot; /* initial VM protection */
uint32_t nsects; /* number of sections in segment */
uint32_t flags; /* flags */
};

对于每一个段,将文件中相对应的内容加载到内存中:从偏移量为fileoff处加载filesize字节到虚拟内存地址vmaddr处的vmsize字节。每一个段的页面都根据initprot进行初始化,initprot指定了如何通过读/写/执行位初始化页面保护级别。段的保护设置可以动态改变,但是不能超过maxprot中指定的值(iOS中,+x 和+w 是互斥的)。
_PAGEZERO段(空指针陷阱)、_TEXT段(程序代码)、_DATA段(程序数据)和_LINKEDIT(链接器使用的符号和其他表)段提供了LC_SEGMENT命令。段也可以进一步分解为区(section).
Mach-O可执行文件中常见的段和区

image3.jpg

段也可以设置一些<mach/loader.h>头文件中定义的flags。其中一个flags是SG_PROTECTED_VERSION_1(0x08),表示这个段是“受保护的”,即加密的。

2、LC_MAIN

LC_MAIN设置程序主线程的入口地址和栈大小.
使用 otool -l /bin/ls 查看加载命令,LC_MAIN加载 命令中的entryoff指向的是main还是的入口地址。可以使用
*otool -vt * 反编译出汇编代码,查看main函数的入口。

下面是演示:
a.c文件中的代码

#include "stdio.h"
int main(int argc, char **argv)
{
    printf("hello world/n");
    return 0;
}

1、使用 gcc -g a.c -o a 进行编译a.c文件。
2、使用 otool -l /bin/ls 查看a的加载命令,其中LC_MAIN加载命令如下:

image4.jpg

entryoff对应的数字3920,转为16进制是 0xf50.
3、再使用 otool -vt a 反编译出汇编代码,查看main函数:
image5.jpg

可以看到main函数的首句汇编代码的地址正是 0xf50。这个位置同样也是__TEXT段中,__text组的起始地址


image6.jpg

动态连接器命令

Mach-O镜像中有很多“空洞”——即对外部的库和符号的引用——这些空洞要在程序启动时填补。这项工作需要由动态链接器来完成。这个过程有时候也被称为符号绑定(binding)。

动态链接器是在内核执行LC_DYLINKER加载命令时启动的,通常是使用/usr/lib/dyld作为动态链接器。
由dyld处理的加载命令


image7.jpg

加载命令所对应的结构体在 <mach-o/loader.h> 头文件中都可以找得到。
例如LC_SYMTAB的结构体如下:

/*
 * The symtab_command contains the offsets and sizes of the link-edit 4.3BSD
 * "stab" style symbol table information as described in the header files
 * <nlist.h> and <stab.h>.
 */
struct symtab_command {
uint32_t cmd; /* LC_SYMTAB */
uint32_t cmdsize; /* sizeof(struct symtab_command) */
uint32_t symoff; /* symbol table offset */
uint32_t nsyms; /* number of symbol table entries */
uint32_t stroff; /* string table offset */
uint32_t strsize; /* string table size in bytes */
};

iOS符号绑定分为两种:non-lazylazy绑定符号。non-lazy符号位于Mach-O文件__DATA Segment__nl_symbol_ptr sectionlazy符号位于__DATA Segment__la_symbol_ptr section。对于non-lazy的符号绑定时机为动态库加载(load),lazy符号的绑定时机则与Linux相同即函数第一次被调用。
在 iOS 系统中,当程序调用动态库的函数时,它实际上是执行__TEXT 段的 __stubs 节的代码。外部函数的地址放在 __DATA 段的__la_symbol_ptr 中,而__stub 的作用便是找到相应的 __la_symbol_ptr,并跳转到它所包含的地址。第一次使用printf时,__la_symbol_ptr中还没有记录printf的真正地址,这时的地址是指向__TEXT 段的 __stub_helper 节中的相关内容。__stub_helper 会调用 dyld_stub_binder(动态链接器的入口) 进行符号绑定,最后会将 printf 的地址放到 __la_symbol_ptr 处。

这里主要讨论下lazy符号绑定。
测试代码 a.c

#include <stdio.h>
int main(int argc, const char * argv[]) {
    // insert code here...
    printf("Hello, World!\n");
    printf("Hello World Again!\n");
    return 0;
}

1、编译代码 gcc a.c -o a

2、使用lldb调试a文件 lldb a,并反编译出main函数的汇编代码


image8.jpg

3、在第一次调用printf处添加断点 b 0x100000f42 ,然后运行代码


image9.jpg

4、使用MachOView打开a文件查看__TEXT段中的__stubs组,可以发现printf的调用地址就是_stubs中的桩。


image10.jpg

__stubs会到__DATA段的__la_symbol_ptr中找到函数的入口地址。


image11.jpg

在lldb中 si(step in)查看printf的执行步骤


image12.jpg

可以发现printf执行的第一条语句就是跳转到0x0000000100000f7c.这与__la_symbol_ptr中printf对应的值是一致的。第一次时,这个地址并没有指向printf函数入口,而是指向了__TEXT段中的__stub_helper中的地址。


image13.jpg

然后在下一条语句0x100000F81中,会跳转到__stub_helper的头部0x100000f6c。顺序执行到第三条命令就是跳转到dyld_stub_binder进行符号绑定了。

5、在第二个printf出添加断点。并继续执行


image14.jpg

image15.jpg

6、再次si查看第二个printf的调用,这里可以看到这里第一条指令的跳转地址已经指向的真正的 printf函数入口。


image16.jpg

本文作者: ctinusdev
原文链接: https://ctinusdev.github.io/2017/08/20/Mach-OBasis_Loadcommand/
转载请注明出处!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,039评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,223评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,916评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,009评论 1 291
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,030评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,011评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,934评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,754评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,202评论 1 309
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,433评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,590评论 1 346
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,321评论 5 342
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,917评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,568评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,738评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,583评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,482评论 2 352

推荐阅读更多精彩内容

  • 13.1 Objective-C消息传递(Messaging) 对于C/C++这类静态语言,调用一个方法其实就是跳...
    泰克2008阅读 2,013评论 1 6
  • 13. Hook原理介绍 13.1 Objective-C消息传递(Messaging) 对于C/C++这类静态语...
    Flonger阅读 1,410评论 0 3
  • 之前在项目中使用 fishhook 来替换系统的 C 函数,其中涉及到很多和 iOS 系统相关的编译、链接等方面的...
    gbupup阅读 1,998评论 0 3
  • 8086汇编 本笔记是笔者观看小甲鱼老师(鱼C论坛)《零基础入门学习汇编语言》系列视频的笔记,在此感谢他和像他一样...
    Gibbs基阅读 37,175评论 8 114
  • Mach-O 概述 和 部分命令介绍 我们知道Windows下的文件都是PE文件,同样在OS X和iOS中可执行文...
    青花瓷的平方阅读 14,901评论 2 52