iOS_LLVM

LLVM 是一个模块化和可重用的编译器和工具链技术的集合,创始人是 Chris Lattner,也是Swift之父
Clang 是 LLVM 的子项目,是 C,C++ 和 Objective-C 编译器,因为多模块的复用,所以提供了惊人的快速编译,比 GCC 快3倍。

LLVM的子项目

  • LLVM Core
    提供了一个现代的源代码和目标独立优化器, 以及许多流行的 CPU (甚至是一些不太常见的处理器) 的汇编代码生成支持。
  • Clang
    一个 C/C++/Objective-C 编译器,致力于提供令人惊讶的快速编译,极其有用的错误和警告信息,提供一个可用于构建很棒的源代码级别的工具。
  • Dragonegg
    GCC 插件,可将 GCC 的优化和代码生成器替换为 LLVM 的相应工具。
  • LLDB
    基于LLVM提供的库和Clang构建的优秀的本地调试器。
  • libc++、libc++ ABI
    符合标准的,高性能的C++标准库实现,以及对 C++11 的完整支持。
  • compiler-rt
    针对 __fixunsdfdi 和其他目标机器上没有一个核心 IR(intermediate representation) 对应的短原生指令序列时,提供高度调优过的底层代码生成支持。
  • OpenMP
    Clang 中对多平台并行编程的runtime支持。
  • Vmkit
    基于 LLVM 的 Java 和 .NET 虚拟机实现。
  • Polly
    支持高级别的循环和数据本地化优化支持的 LLVM 框架。
  • libclc
    OpenCL 标准库的实现
  • Klee
    基于 LLVM 编译基础设施的符号化虚拟机
  • SAFECode
    内存安全的C/C++编译器
  • lld
    Clang/LLVM 内置的链接器

传统的编译器架构

编译器架构.png

Frontend: 前端, 词法分析, 语法分析, 语义分析, 生成中间代码
Optimizer: 优化器, 中间代码优化
Backend: 后端, 生成机器码

LLVM架构

image.png
  • 不同的前端后端使用统一的中间代码LLVM Intermediate Representation (LLVM IR)
  • 如果需要支持一种新的编程语言,那么只需要实现一个新的前端
  • 如果需要支持一种新的硬件设备,那么只需要实现一个新的后端
  • LLVM现在被作为实现各种静态和运行时编译语言的通用基础结构(GCC家族、Java、.NET、Python、Ruby、Scheme、Haskell、D等)

Clang与LLVM

Clang.png

1. App编译过程

文件: main.m

#include <stdio.h>

#define Num 10

int main(int argc, const char * argv[]) {
    int a = 10;
    int b = 20;
    int c = a + b + Num;
    return 0
}

在命令行中输入
通过命令可看到编译文件需要经历的几个过程

$ clang -ccc-print-phases main.m
image.png
  1. 预编译处理
    主要包括宏的替换, 头文件的导入,也包含如下
“#define”
“#include”
“#indef”
注释
“#pragma”

查看preprocessor(预处理)的结果

$ clang -E main.m
image.png
  1. 词法分析
    编译器会将代码切成一个个Token,如下几类
  • 关键字:语法中的关键字,if else while for 等。
  • 标识符:变量名
  • 字面量:值,数字,字符串
  • 特殊符号:加减乘除等符号
$ clang -fmodules -E -Xclang -dump-tokens main.m
image.png
  1. 语法分析
    将 token 先按照语法, 组合成语义生成 VarDecl 节点,然后将这些节点按照层级关系构成抽象语法树 Abstract Syntax Tree (AST)
$ clang -fmodules -fsyntax-only -Xclang -ast-dump main.m
image.png

image.png
  1. LLVM IR中间代码生成.
  • CodeGen 会负责将语法树自顶向下遍历逐步翻译成 LLVM IR,
    IR 是编译过程的前端的输出, 后端的输入
  • 将语法树翻译成 LLVM IR 中间代码,作为 LLVM Backend 输入的桥接语言。方便 LLVM Backend 给多语言做相同的优化,做到语言无关。
这个过程中还会跟 runtime 桥接
  • 各种类,方法,成员变量等的结构体的生成,并将其放到对应的 Mach-O的section中。
  • Non-Fragile ABI 合成 OBJC_IVAR_$_ 偏移值常量。
  • ObjCMessageExpr 翻译成相应版本的 objc_msgSend,super 翻译成 objc_msgSendSuper。
  • strong,weak,copy,atomic 合成 @property 自动实现 setter 和 getter。
  • @synthesize 的处理。
  • 生成 block_layout 数据结构
  • __block 和 __weak
  • _block_invoke
  • ARC 处理,插入 objc_storeStrong 和 objc_storeWeak 等 ARC 代码。ObjCAutoreleasePoolStmt 转 objc_autorealeasePoolPush / Pop。自动添加 [super dealloc]。给每个 ivar 的类合成 .cxx_destructor 方法自动释放类的成员变量。
  • LLVM IR有3种表示形式(但本质是等价的,就好比水可以有气体、液体、固体3种形态)
  • text:便于阅读的文本格式,类似于汇编语言,拓展名.ll,
 $ clang -S -emit-llvm main.m 

会在当前目录下生成.||文件, 使用SublineText ActionScript语言打开显示


image.png
  • memory:内存格式
  • bitcode:二进制格式,拓展名.bc,
$ clang -c -emit-llvm main.m
image.png
  1. IR输入到后端, 生成汇编文件
  2. 生成目标文件
  3. link目标文件,生成可执行文件

编译App完整步骤
下面是完整步骤:

* 编译信息写入辅助文件,创建文件架构 .app 文件
* 处理文件打包信息
* 执行 CocoaPod 编译前脚本,checkPods Manifest.lock
* 编译.m文件,使用 CompileC 和 clang 命令
* 链接需要的 Framework
* 编译 xib
* 拷贝 xib ,资源文件
* 编译 ImageAssets
* 处理 info.plist
* 执行 CocoaPod 脚本
* 拷贝标准库
* 创建 .app 文件和签名
image.png

Codegen 机器码生成器


image.png

问题

  1. LLVM编译一个源文件的过程:
    预处理 -> 词法分析 -> Token -> 语法分析 - > AST树 -> 代码生成 -> LLVM IR -> 优化 -> 生成汇编代码 -> Link -> 目标文件

  2. 基于LLVM, 我们可以做什么
    a. 做语法树分析, 实现语言转换, 入如OC转Swift, JS 或 其他语言
    b. 编写ClangPlugin, 用于代码的命名规范, 编写规范
    c. 编写Pass, 代码混淆优化.

参考自 :
戴铭LLVM文章
戴铭segmentfault课
Clang 之路——编写我的第一个 Clang 插件:检测 ObjC 中的类声明规范

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容