iOS底层原理探索--dyld加载流程分析

iOS底层原理探索--dyld加载流程分析

参考文章:https://juejin.im/post/5e12ce8a5188253a6647c900

前言

在平时的开发过程中,我们经历过成千上万次的 Command + B/R 的过程,但可能很少有人关注这个过程中 XCode 帮我们做了哪些些事情。

事实上,这个过程分解为4个步骤,分别是预处理(Prepressing)、编译(Compilation)、汇编(Assembly)和链接(Linking). ------ 摘自《程序员的自我修养-- 链接、装载与库》

在以上4个步骤中,IDE主要做了以下几件事:

  1. \color{orange}{预编译:}处理代码中的 # 开头的预编译指令,比如删除#define并展开宏定义,将#include包含的文件插入到该指令位置等;
  2. \color{orange}{编译:}对预编译处理过的文件进行词法分析、语法分析和语义分析,并进行源代码优化,然后生成汇编代码;
  3. \color{orange}{汇编:}通过汇编器将汇编代码转换为机器可以执行的指令,并生成目标文件.o文件;
  4. \color{orange}{链接:}将目标文件链接成可执行文件。这一过程中,链接器将不同的目标文件链接起来,因为不同的目标文件之间可能有相互引用的变量或调用的函数,如我们经常调用 Foundation 框架和 UIKit 框架中的方法和变量,但是这些框架跟我们的代码并不在一个目标文件中,这就需要链接器将它们与我们自己的代码链接起来。

在苹果的操作系统中,就是由dyld来完成链接加载程序的操作。

一、dyld简介

dyld(The dynamic link editor)是苹果的动态链接器,负责程序的链接及加载工作,是苹果操作系统的重要组成部分。dyld是开源的,我们可以在苹果的开源网站 OpenSource 上找到其源码。

点击去下载dyld源码

下载源码,我们就可以分析dyld的加载过程了。

二、流程分析

首先我们创建新的iOS工程,在ViewController的 .m 文件中实现一个空的 orange}{+load()}$ 方法,并在该方法打断点



运行工程到此断点后,可以发现其函数调用栈如下:


函数调用栈

通过这个函数调用栈,我们发现在 +load() 方法之前还有一系列dyld的函数调用,我们就以这些函数为线索来分析。

2.1 start函数分析

从函数调用栈我们可以看见第一个调用的地方在dyld的 start 函数, 点击可以看见汇编代码如下

dyld_start汇编

我们在dyld的源码里搜索 dyldbootstrap::start ,会发现有四个结果都在汇编代码里,于是我们可以猜测start会不会是C语言的函数,搜索 (前方加空格),会发现如下代码

uintptr_t start(const struct macho_header* appsMachHeader, int argc, const char* argv[], 
                intptr_t slide, const struct macho_header* dyldsMachHeader,
                uintptr_t* startGlue)
{
    // if kernel had to slide dyld, we need to fix up load sensitive locations
    // we have to do this before using any global variables
    slide = slideOfMainExecutable(dyldsMachHeader);
    bool shouldRebase = slide != 0;
#if __has_feature(ptrauth_calls)
    shouldRebase = true;
#endif
    if ( shouldRebase ) {
        rebaseDyld(dyldsMachHeader, slide);
    }

    // allow dyld to use mach messaging
    mach_init();

    // kernel sets up env pointer to be just past end of agv array
    const char** envp = &argv[argc+1];
    
    // kernel sets up apple pointer to be just past end of envp array
    const char** apple = envp;
    while(*apple != NULL) { ++apple; }
    ++apple;

    // set up random value for stack canary
    __guard_setup(apple);

#if DYLD_INITIALIZER_SUPPORT
    // run all C++ initializers inside dyld
    runDyldInitializers(dyldsMachHeader, slide, argc, argv, envp, apple);
#endif

    // now that we are done bootstrapping dyld, call dyld's main
    uintptr_t appsSlide = slideOfMainExecutable(appsMachHeader);
    return dyld::_main(appsMachHeader, appsSlide, argc, argv, envp, apple, startGlue);
}

在 start() 函数中主要做了一下几件事:

  1. 根据dyldsMachHeader计算出 slide, 通过slide判定是否需要重定位;这里的slide是根据 \color{orange}{ ASLR技术 } 计算出的一个随机值,使得程序每一次运行的偏移值都不一样,防止攻击者通过固定地址发起恶意攻击;
slide = slideOfMainExecutable(dyldsMachHeader);
    bool shouldRebase = slide != 0;
#if __has_feature(ptrauth_calls)
    shouldRebase = true;
#endif
    if ( shouldRebase ) {
        rebaseDyld(dyldsMachHeader, slide);
    }
  1. 初始化 mach_init() ,(allow dyld to use mach messaging,允许dyld使用mach消息传递);
  2. 栈溢出保护
  3. 计算 appsMachHeader 的偏移,调用 dyld::_main() 函数。
    由此我们进入到了函数调用栈中 dyld::_main() 函数中。

2.2 dyld::_main()函数分析

点击进入 dyld::_main() 函数,代码如下

// Entry point for dyld.  The kernel loads dyld and jumps to __dyld_start which
// sets up some registers and call this function.
//
// Returns address of main() in target program which __dyld_start jumps to
//
uintptr_t
_main(const macho_header* mainExecutableMH, uintptr_t mainExecutableSlide, 
        int argc, const char* argv[], const char* envp[], const char* apple[], 
        uintptr_t* startGlue)
{

}

dyld::main()函数的代码比较多,这里只展示了方法名称和参数。dyld::main()主要做了以下几件事:

  1. setContext:
  2. 加载共享缓存
  3. reloadAllImages
  4. 加载插入的库(load any inserted libraries)
  5. 链接主程序和插入的库
  6. 初始化主程序,initializeMainExecutable();

2.2.1 设置上下文及配置环境变量

CRSetCrashLogMessage("dyld: launch started");
setContext(mainExecutableMH, argc, argv, envp, apple);

在main函数的 launch started 处我们可以发现 setContext() 方法,点进方法我们我们发现这一步就是设置上下文 gLinkContext ,点进 gLinkContext 我们发现它是一个LinkContext类型变量


gLinkContext

我们再点进去LinkContext可以发现它是一个结构体,


LinkContext结构体

这个结构体存储了 dyld 链接过程中的上下文信息,包括加载哪个MachO文件、imageCount、环境变量等信息。
configureProcessRestrictions(mainExecutableMH);
checkEnvironmentVariables(envp);

接下来要配置进程受限以及检测环境变量,这两步操作会影响到有些库是否会被加载。

2.2.2 加载共享缓存

我们为什么要加载共享缓存?共享缓存到底是什么呢?举个例子,我们开发过程中会经常用到 UIKit 和 Foundation 框架,这些框架是放在哪里呢,怎样加载呢?如果每个app在运行时都加载一次,显然会十分影响效率,也是一种不经济的方式。苹果为了解决这一问题,使用了共享缓存机制这一方式。对于系统动态库,在app用到某一动态库时就加载进内存,其他app用到该动态库时就不必重复加载。

点击 mapSharedCache() 方法中的 loadDyldCache 方法可以发现,会有这一逻辑判断,代码如下。

bool loadDyldCache(const SharedCacheOptions& options, SharedCacheLoadInfo* results)
{
    results->loadAddress        = 0;
    results->slide              = 0;
    results->errorMessage       = nullptr;

#if TARGET_IPHONE_SIMULATOR
    // simulator only supports mmap()ing cache privately into process
    return mapCachePrivate(options, results);
#else
    if ( options.forcePrivate ) {
        // mmap cache into this process only
        return mapCachePrivate(options, results);
    }
    else {
        // fast path: when cache is already mapped into shared region
        bool hasError = false;
        if ( reuseExistingCache(options, results) ) {
            hasError = (results->errorMessage != nullptr);
        } else {
            // slow path: this is first process to load cache
            hasError = mapCacheSystemWide(options, results);
        }
        return hasError;
    }
#endif
}

在进行共享缓存的加载前,dyld会检测是否可以禁用共享缓存,代码如下,我们可以发现iOS系统下无法禁用共享缓存。

static void checkSharedRegionDisable(const dyld3::MachOLoaded* mainExecutableMH, uintptr_t mainExecutableSlide)
{
#if __MAC_OS_X_VERSION_MIN_REQUIRED
    // if main executable has segments that overlap the shared region,
    // then disable using the shared region
    if ( mainExecutableMH->intersectsRange(SHARED_REGION_BASE, SHARED_REGION_SIZE) ) {
        gLinkContext.sharedRegionMode = ImageLoader::kDontUseSharedRegion;
        if ( gLinkContext.verboseMapping )
            dyld::warn("disabling shared region because main executable overlaps\n");
    }
#if __i386__
    if ( !gLinkContext.allowEnvVarsPath ) {
        // <rdar://problem/15280847> use private or no shared region for suid processes
        gLinkContext.sharedRegionMode = ImageLoader::kUsePrivateSharedRegion;
    }
#endif
#endif
    // iOS cannot run without shared region

2.2.3 reloadAllImages

在MachO文件的LoadCommands中的有一种类型叫 LC_LOAD_DYLIB ,这一类型标识的是程序所依赖的动态库,如图所示:


MachO文件LoadCommands

程序运行时可以通过LC_LOAD_DYLIB来加载动态库,dyld中通过 instantiateFromLoadedImage() 函数来读取相关信息,进行动态库的加载

// The kernel maps in main executable before dyld gets control.  We need to 
// make an ImageLoader* for the already mapped in main executable.
static ImageLoaderMachO* instantiateFromLoadedImage(const macho_header* mh, uintptr_t slide, const char* path)
{
    // try mach-o loader
    if ( isCompatibleMachO((const uint8_t*)mh, path) ) {
        ImageLoader* image = ImageLoaderMachO::instantiateMainExecutable(mh, slide, path, gLinkContext);
        addImage(image);
        return (ImageLoaderMachO*)image;
    }
    
    throw "main executable not a known format";
}

首先调用 isCompatibleMachO() 判断是否兼容此MachO文件, 主要是判断MachO文件的Magic number、cputype、cpusubtype等字段是否正确。


MachO文件Header

如果MachO文件格式不正确则抛出异常,否则执行 instantiateMainExecutable() 方法实例化主程序,并添加image到sAllImages数组中。我们来看一下 instantiateMainExecutable() 函数

// create image for main executable
ImageLoader* ImageLoaderMachO::instantiateMainExecutable(const macho_header* mh, uintptr_t slide, const char* path, const LinkContext& context)
{
    //dyld::log("ImageLoader=%ld, ImageLoaderMachO=%ld, ImageLoaderMachOClassic=%ld, ImageLoaderMachOCompressed=%ld\n",
    //  sizeof(ImageLoader), sizeof(ImageLoaderMachO), sizeof(ImageLoaderMachOClassic), sizeof(ImageLoaderMachOCompressed));
    bool compressed;
    unsigned int segCount;
    unsigned int libCount;
    const linkedit_data_command* codeSigCmd;
    const encryption_info_command* encryptCmd;
    sniffLoadCommands(mh, path, false, &compressed, &segCount, &libCount, context, &codeSigCmd, &encryptCmd);
    // instantiate concrete class based on content of load commands
    if ( compressed ) 
        return ImageLoaderMachOCompressed::instantiateMainExecutable(mh, slide, path, segCount, libCount, context);
    else
#if SUPPORT_CLASSIC_MACHO
        return ImageLoaderMachOClassic::instantiateMainExecutable(mh, slide, path, segCount, libCount, context);
#else
        throw "missing LC_DYLD_INFO load command";
#endif
}

在该函数中有几个未初始化的变量\color{orange}{ compressed、segCount、libCount、codeSigCmd、encryptCmd },这几个变量的地址作为参数,在 sniffLoadCommands() 调用后发生改变。
sniffLoadCommands() 函数的实现如下:

// determine if this mach-o file has classic or compressed LINKEDIT and number of segments it has
void ImageLoaderMachO::sniffLoadCommands(const macho_header* mh, const char* path, bool inCache, bool* compressed,
                                            unsigned int* segCount, unsigned int* libCount, const LinkContext& context,
                                            const linkedit_data_command** codeSigCmd,
                                            const encryption_info_command** encryptCmd)
{
    *compressed = false;
    *segCount = 0;
    *libCount = 0;
    *codeSigCmd = NULL;
    *encryptCmd = NULL;
    ......省略部分代码
    switch (cmd->cmd) {
    case LC_DYLD_INFO:
    case LC_DYLD_INFO_ONLY:
        if ( cmd->cmdsize != sizeof(dyld_info_command) )
            throw "malformed mach-o image: LC_DYLD_INFO size wrong";
        dyldInfoCmd = (struct dyld_info_command*)cmd;
        *compressed = true;
        break;
    case LC_SEGMENT_COMMAND:
        segCmd = (struct macho_segment_command*)cmd;
    case LC_SEGMENT_COMMAND:
        // ignore zero-sized segments
        if ( segCmd->vmsize != 0 ) *segCount += 1;
    case LC_LOAD_DYLIB:
    case LC_LOAD_WEAK_DYLIB:
    case LC_REEXPORT_DYLIB:
    case LC_LOAD_UPWARD_DYLIB:
        *libCount += 1;
        // fall thru
    case LC_CODE_SIGNATURE:
        ......
        if ( *codeSigCmd != NULL )
        throw "malformed mach-o image: multiple LC_CODE_SIGNATURE load commands";
        *codeSigCmd = (struct linkedit_data_command*)cmd;
        break;
    case LC_ENCRYPTION_INFO:
        ......
        if ( *encryptCmd != NULL )
        throw "malformed mach-o image: multiple LC_ENCRYPTION_INFO load commands";
        *encryptCmd = (encryption_info_command*)cmd;
        break;

介于代码比较长,这里只展示了部分代码,不过我们也可以看见该函数主要是读取了MachO文件的LoadCommands信息,并赋值给之前定义的变量。
这几个变量的含义如下:

  1. compressed:
  2. segCount: MachO文件中segment数量
  3. libCount: MachO文件中依赖的动态库的数量
  4. codeSigCmd: 签名信息
  5. encryptCmd: 加密信息,如cryptid等

2.2.4 加载插入的库

if  ( sEnv.DYLD_INSERT_LIBRARIES != NULL ) {
    for (const char* const* lib = sEnv.DYLD_INSERT_LIBRARIES; *lib != NULL; ++lib) 
        loadInsertedDylib(*lib);
}
    // record count of inserted libraries so that a flat search will look at 
    // inserted libraries, then main, then others.
    sInsertedDylibCount = sAllImages.size()-1;

根据 DYLD_INSERT_LIBRARIES 来判定是否加载插入的库,如果允许加载插入的库且有插入的库,则for循环执行 loadInsertedDylib() 函数加载动态库,如果不允许加载插入的库,则执行下面的操作。

2.2.5 链接主程序和插入的库

// link main executable
gLinkContext.linkingMainExecutable = true;
#if SUPPORT_ACCELERATE_TABLES
if ( mainExcutableAlreadyRebased ) {
// previous link() on main executable has already adjusted its internal pointers for ASLR
// work around that by rebasing by inverse amount
  sMainExecutable->rebase(gLinkContext, -mainExecutableSlide);
}--nExecutable, sEnv.DYLD_BIND_AT_LAUNCH, true, ImageLoader::RPathChain(NULL, NULL), -1);
sMainExecutable->setNeverUnloadRecursive();
if ( sMainExecutable->forceFlat() ) {
  gLinkContext.bindFlat = true;
  gLinkContext.prebindUsage = ImageLoader::kUseNoPrebinding;
}

// link any inserted libraries
// do this after linking main executable so that any dylibs pulled in by inserted 
// dylibs (e.g. libSystem) will not be in front of dylibs the program uses
if ( sInsertedDylibCount > 0 ) {
   for(unsigned int i=0; i < sInsertedDylibCount; ++i) {
    ImageLoader* image = sAllImages[i+1];
    link(image, sEnv.DYLD_BIND_AT_LAUNCH, true, ImageLoader::RPathChain(NULL, NULL), -1);
    image->setNeverUnloadRecursive();
   }
   // only INSERTED libraries can interpose
   // register interposing info after all inserted libraries are bound so chaining works
   for(unsigned int i=0; i < sInsertedDylibCount; ++i) {
    ImageLoader* image = sAllImages[i+1];
    image->registerInterposing(gLinkContext);
   }
}

通过 link() 函数链接主程序和插入的库,链接完毕后还会进行 recursiveBind() 、弱绑定 weakBind() 。至此,dyld进行setContext、加载共享缓存、reloadAllImages、加载插入的库、链接主程序和插入的库已完成,加下来会进行初始化主程序的操作。

2.2.6 initializeMainExecutable()

进行到这一步,我们会发现正好对应文章开头的函数调用栈中第6步的 initializeMainExecutable() 函数。

void initializeMainExecutable()
{
    // record that we've reached this step
    gLinkContext.startedInitializingMainExecutable = true;

    // run initialzers for any inserted dylibs
    ImageLoader::InitializerTimingList initializerTimes[allImagesCount()];
    initializerTimes[0].count = 0;
    const size_t rootCount = sImageRoots.size();
    if ( rootCount > 1 ) {
        for(size_t i=1; i < rootCount; ++i) {
            sImageRoots[i]->runInitializers(gLinkContext, initializerTimes[0]);
        }
    }
    
    // run initializers for main executable and everything it brings up 
    sMainExecutable->runInitializers(gLinkContext, initializerTimes[0]);
    
    // register cxa_atexit() handler to run static terminators in all loaded images when this process exits
    if ( gLibSystemHelpers != NULL ) 
        (*gLibSystemHelpers->cxa_atexit)(&runAllStaticTerminators, NULL, NULL);

    // dump info if requested
    if ( sEnv.DYLD_PRINT_STATISTICS )
        ImageLoader::printStatistics((unsigned int)allImagesCount(), initializerTimes[0]);
    if ( sEnv.DYLD_PRINT_STATISTICS_DETAILS )
        ImageLoaderMachO::printStatisticsDetails((unsigned int)allImagesCount(), initializerTimes[0]);
}

从代码中我们可以看到 runInitializers() 函数,由注释可以看到该函数是用来运行主程序初始化器的,而且该函数正对应函数调用栈中的第5步,从这一步开始方法的所在的类由dyld变成了ImageLoader。我们进入函数中看一下代码:

void ImageLoader::runInitializers(const LinkContext& context, InitializerTimingList& timingInfo)
{
    uint64_t t1 = mach_absolute_time();
    mach_port_t thisThread = mach_thread_self();
    ImageLoader::UninitedUpwards up;
    up.count = 1;
    up.images[0] = this;
    processInitializers(context, thisThread, timingInfo, up);
    context.notifyBatch(dyld_image_state_initialized, false);
    mach_port_deallocate(mach_task_self(), thisThread);
    uint64_t t2 = mach_absolute_time();
    fgTotalInitTime += (t2 - t1);
}

在该函数中我们进一步可以看到函数调用栈第4步的 processInitializers() 函数,继续点进该函数我们会发现,函数调用栈的第3步 recursiveInitialization() 函数,此时我们无法再点进函数,但是可以通过在本文件中搜索的方式找到该函数。


recursiveInitialization()

在该函数中调用 doInitialization() 函数进行初始化后,会调用 LinkContext 的 notifySingle() 函数,到这里我们发现该函数与函数调用栈的第2步的正好对应。接着函数调用栈的 load_images 函数,我们在 notifySingle() 并没有找到,而且在函数调用栈中也没有看到该函数在哪个类中,我的理解是 notifySingle() 是一个通知回调函数,因此并不在dyld加载过程中。其实这一部分属于objc调用流程中也会有,我将在探索类的加载时继续探索该部分内容。

三、总结

本篇文章主要总结了dyld的加载流程。将源代码转换为目标文件一般会经历 预编译、编译、汇编、链接的过程,dyld就是苹果的链接器,用于将可执行文件链接成目标文件,其主要流程有:

  • 1⃣️、设置上下文及配置环境变量
  • 2⃣️、加载共享缓存
  • 3⃣️、reloadAllImages
  • 4⃣️、加载插入的库
  • 5⃣️、链接主程序和插入的库
  • 6⃣️、初始化主程序

本文是第一次进行dyld底层探索,还有许多细节没有探索,欢迎大家批评指正,我会不断进行完善,后续也会继续进行底层的探索。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,185评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,445评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,684评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,564评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,681评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,874评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,025评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,761评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,217评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,545评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,694评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,351评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,988评论 3 315
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,778评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,007评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,427评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,580评论 2 349

推荐阅读更多精彩内容