runtime源码解析(前传2)--Mach-O格式和runtime

在前传1中,我们分析了解了XNU内核所支持的二进制文件格式Mach-O。同时还留了一个小尾巴,就是Mach-O文件中和Objective-C以及runtime相关的Segment section。今天,就来了解一下它们。

OC之源起

我们知道,程序的入口点在iOS中被称之为main函数:

#import <UIKit/UIKit.h>
#import "AppDelegate.h"

int main(int argc, char * argv[]) {
    @autoreleasepool {
        return UIApplicationMain(argc, argv, nil, NSStringFromClass([AppDelegate class]));
    }
}

我们所写的所有代码,它的执行的第一步,均是由main函数开始的。

但其实,在程序进入main函数之前,内核已经为我们的程序加载和运行做了许多的事情。

当我们设置符号断点_objc_init,可以看到如下调用堆栈信息,这些函数都是在main函数调用前,被系统调用的:


_objc_init 是Object-C runtime的入口函数,在这里面主要功能是读取Mach-O文件OC对应的Segment seciton,并根据其中的数据代码信息,完成为OC的内存布局,以及初始化runtime相关的数据结构。
我们可以看到,__objc_init_ 是被__dyld_start_ 所调用起来的,__dyld_start_ 是dyld的bootstrap方法,最终调用到了__objc_init_。
dyld是苹果的动态加载器,用来加载image(注意这里image不是指图片,而是Mach -O格式的二进制文件)。
当程序启动时,系统内核首先会加载dyld, 而dyld会将我们APP所依赖的各种库加载到内存空间中,其中就包括libobjc库(OC和runtime), 这些工作,是在APP的main函数执行前完成的。

_objc_init 方法中,会注册监听来自dlyd的以下事件:

  // Register for unmap first, in case some +load unmaps something
    _dyld_register_func_for_remove_image(&unmap_image);
    dyld_register_image_state_change_handler(dyld_image_state_bound,
                                             1/*batch*/, &map_2_images);
    dyld_register_image_state_change_handler(dyld_image_state_dependents_initialized, 0/*not batch*/, &load_images);

对应的事件说明:

  • _dyld_register_func_for_remove_image : dyld将image移除内存
  • dyld_image_state_bound :dyld绑定了新的image
  • dyld_image_state_dependents_initialized:image所依赖的各种库都被初始化好了

由上面代码可以看到,当dyld绑定了新的image之后,runtime会执行map_2_images方法,在这个方法中,libobjc会读取当前所加载的image的Mach-O文件信息,并利用和OC相关的Segment section中的信息,对OC内存空间的各种底层数据结构进行初始化,包括class struct的填充,category绑定到对应class,填充class的method list,protocol list以及property list等。当这一切都做好后,我们就可以在程序中尽情的调用runtime的各种黑魔法啦~ 说到底,所谓的runtime黑魔法,只是基于OC各种底层数据结构上的应用

所以,要想深入的了解runtime,需要了解OC底层的各种C语言实现,这在后续的章节中会逐步介绍。而OC底层结构的初始化,则是借助于Mach-O文件格式以及dyld。

对于dyld是如何加载Mach-O文件的,我们这里不做深入介绍,有兴趣可以参见:iOS 程序 main 函数之前发生了什么
这里,我们重点关注一下Mach-O文件和OC相关的Segment section。

PS:不要将OC和runtime分开理解,其实在苹果开源代码中,OC和runtime是在一个工程中objc4的。我们平常所用到的OC语言,底层90%都是由C语言加一些汇编代码实现的。比如OC中的NSObject它唯一的实例变量类型Class,对应C语言结构体objc_class。
而所谓的runtime,则是在OC这些C语言底层实现的数据结构基础上,进行的一些操作,比如交换Selector的实现,只需要交换method
list的IMP。获取一个对象的说有属性名称,只需要输出对应C语言结构property list即可。

Mach-O中OC相关的Segment Section

在上一篇文章中,我们可以看到,在__TEXT段和__DATA段中,都有如下以objc**形式命名的section,这些section,是和OC的内存布局相关的。

__TEXT & OC

__TEXT段是程序的不可变常量部分,包括了字符串常量,被const修饰的常量,同时也包括OC相关的一些seciton。

__objc_classname

这里面以字符串常量的形式,记录了我们自定义以及所引用的系统class的名称,同时也包括Category, protocol 的名称:
__objc_methname

这个seciton中记录了当前APP所调用的方法的名称:
__objc_methtype

这个seciton与__objc_methname节对应,记录了method的描述字符串:

__DATA & OC

以下内容的结论,大部分来自于五子棋大神的深入理解Macho文件(二)- 消失的__OBJC段与新生的__DATA段,里面涉及到许多的汇编分析,本人对汇编功力欠佳,所以仅能总结下大神的结论。

__objc_imageinfo

__objc_imageinfo section 主要用来区分OC的版本1.0 或 2.0,在OC源码中是这样定义的:

typedef struct {
    uint32_t version; // currently 0
    uint32_t flags;
} objc_image_info;

version 字段总是为0,而flags字段通过异或的方式,表面需要支持的特性。如是否需要/支持垃圾回收:

SupportsGC          = 1<<1,  // image supports GC
  RequiresGC          = 1<<2,  // image requires GC

if (ii.flags & (1<<1)) {
    // App wants GC. 
    // Don't return yet because we need to 
    // check the AppleScriptObjC exception.
    wantsGC = YES;
}
__objc_classlist

这个section列出了所有的class,包括meta class。
用MachOView查看该节,是这样的:


该节中存储的是一个个的指针,指针指向的地址是class结构体所在的地址。class结构体在OC中用结构体objc_class表示。

struct objc_class : objc_object {
    // Class ISA;
    Class superclass;
    cache_t cache;             // formerly cache pointer and vtable
    class_data_bits_t bits;    // class_rw_t * plus custom rr/alloc flags
}
__objc_catlist

该节中存储了OC中定义的Catgory, 存储了一个个指向__objc_category类型的指针。

struct category_t {
    const char *name;
    classref_t cls;
    struct method_list_t *instanceMethods;
    struct method_list_t *classMethods;
    struct protocol_list_t *protocols;
    struct property_list_t *instanceProperties;
}
__objc_protolist

该节中记录了所有的协议。 像上面一样,也是存储了指向protocol_t的指针。
struct protocol_t : objc_object {
    const char *mangledName;
    struct protocol_list_t *protocols;
    method_list_t *instanceMethods;
    method_list_t *classMethods;
    method_list_t *optionalInstanceMethods;
    method_list_t *optionalClassMethods;
    property_list_t *instanceProperties;
    uint32_t size;   // sizeof(protocol_t)
    uint32_t flags;
    // Fields below this point are not always present on disk.
    const char **extendedMethodTypes;
    const char *_demangledName;
  }
__objc_classrefs

该节记录了那些class被引用了。因为有些类虽然被打包入APP中,但是在程序中并没有被引用。所以,这里记录了那些类真正的被我们实例化了。(注意,这里的AppDelegate 虽然在程序中没有显示的实例化,但系统似乎将其也标识为被引用的)
__objc_selrefs

这节告诉那些SEL对应的字符串被引用了,有系统方法,也有自定义方法:
__objc_superrefs

这一个节记录了调用super message的类。比如,在son方法中,我们调用了father的方法,就会将son class记录在这里。同理,在viewDidLoad中调用了super viewDidLoad, 因此view controller class也被记录在这里。

至于为什么要单独弄出一个section来记录所有调用了super message的类,这应该和[super message]的底层实现相关,说实话,五子棋大神的解释,我没有看懂……

__objc_const

这一节用来记录在OC内存初始化过程中的不可变内容。这里所谓的不可变内容并不是我们在程序中所写的const int k = 5这种常量数据(它存在__TEXT的const section中),而是在OC内存布局中不可变得部分,包括但不限于:

struct class_ro_t {
    uint32_t flags;
    uint32_t instanceStart;
    uint32_t instanceSize;
#ifdef __LP64__
    uint32_t reserved;
#endif

    const uint8_t * ivarLayout;

    const char * name;
    method_list_t * baseMethodList;
    protocol_list_t * baseProtocols;
    const ivar_list_t * ivars;

    const uint8_t * weakIvarLayout;
    property_list_t *baseProperties;

    method_list_t *baseMethods() const {
        return baseMethodList;
    }
};

// 方法列表
// Two bits of entsize are used for fixup markers.
struct method_list_t : entsize_list_tt<method_t, method_list_t, 0x3> {
    bool isFixedUp() const;
    void setFixedUp();

    uint32_t indexOfMethod(const method_t *meth) const {
        uint32_t i = 
            (uint32_t)(((uintptr_t)meth - (uintptr_t)this) / entsize());
        assert(i < count);
        return i;
    }
};
// 方法实体
struct method_t {
    SEL name;
    const char *types;
    IMP imp;

    struct SortBySELAddress :
        public std::binary_function<const method_t&,
                                    const method_t&, bool>
    {
        bool operator() (const method_t& lhs,
                         const method_t& rhs)
        { return lhs.name < rhs.name; }
    };
};

总结

今天我们了解了Mach-O格式和OC的关系,并大致了解了各个section中的内容。

当dyld加载我们的APP的时候,会通知OC读取对应seciton的内容,进而完成OC内存数据结构的初始化工作,为之后的程序运行及runtime黑魔法做好了准备。

注意,上面所说的工作,是在APP的main函数之前就已经结束了的。

到此为止,关于Mach-O格式,我们已经有了基本的了解了。接下来将会进入我们的正题:理解OC内部的各种数据结构,以及它们是如何被runtime所应用的。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,377评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,390评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,967评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,344评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,441评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,492评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,497评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,274评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,732评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,008评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,184评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,837评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,520评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,156评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,407评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,056评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,074评论 2 352

推荐阅读更多精彩内容