LLVM是架构编译器(compiler)的框架系统,以C++编写而成,用于优化以任意程序编写的程序的编译时间(compile-time)、链接时间(link-time)、运行时间(run-time)以及空闲时间(idle-time)。
传统编译器设计
- 编译器前端(Frontend)
编译器前端的任务是解析源代码,它会进行:词法分析、语法分析、语义分析、检查源代码是否存在错误,然后构建抽象语法书(AST)
,LLVM的前端还会生成中间代码(IR)
- 优化器(Optimizer)
优化器负责进行各种优化。改善代码的运行时间,例如消除用于计算 - 后端(backend)/代码生成器(codeGenerator)
将代码映射到目标指令集,生成机器语言,并且进行机器相关的代码优化。
iOS的编译器架构
Objective C/C/C++ 使用的编译器前端是Clang,Swift的前端是Swift,后端都是LLVM
LLVM的设计
LLVM编译器支持多种源语言或者多种架构。他的设计理念是编译器前端支持多种语言处理,生成中间代码,交给编译器后端,后端根据使用的架构最终生成目标代码Clang
Clang是LLVM项目中的一个子项目。它是基于LLVM架构的轻量级编译器。他负责编译C/C++/Object-c编译器前端。
编译流程
通过命令打印源码的编译阶段
clang -ccc-print-phases main.m
+- 0: input, "main.m", objective-c
+- 1: preprocessor, {0}, objective-c-cpp-output
+- 2: compiler, {1}, ir
+- 3: backend, {2}, assembler
+- 4: assembler, {3}, object
+- 5: linker, {4}, image
6: bind-arch, "x86_64", {5}, image
- 0:输入文件:找到源文件
- 1:预处理阶段:这个过程处理红的替换,头文件的导入
- 2:编译阶段:进行此法分析、语法分析、检测语法是否正确
- 3:后端:LLVM会通过一个一个的Pass去优化,每个Pass做一些事情生成汇编代码
- 4:生成模板文件。main.o(模板文件)
- 5:链接:链接需要的动态库和静态库,生成可执行文件
- 6:通过不同的结构,生成对应的可执行文件
1.预处理阶段
#import <stdio.h>
#define a 10
int main(int argc, const char * argv[]) {
int b = 20;
printf("%d", a +b);
return 0;
}
控制台执行如下命令
clang -E main.m
执行完毕可以看到头文件的导入和宏的替换。代码很长截取主要代码
2.编译阶段
- 词法分析
预处理完成后就会进行此法分析。这里会把代码切换成一个个Token,比如括号、+、-等
clang -fmodules -fsyntax-only -Xclang -dump-tokens main.m
- 语法分析
语法分析的主要是验证语法
是否正确。在此法分析的基础上将单词序列组合成各类语法短语,如“程序”、“语句”、“表达式”等,然后将所有节点组成抽象语法树(AST)。语法分析程序判断源程序在结构上是否正确。
clang -fmodules -fsyntax-onl -Xclang -ast-dump main.m
- 生成中间代码IR
完成以上步骤后就开始生成中间代码IR了,代码生成生成器(Code Generation)会将语法树自顶向下遍历逐步翻译成LLVM IR。生成.ll的文件
clang -S -fobjc-arc -emit-llvm main.m
IR的基本语法
@全局表示
%局部表示
alloca 开辟空间
align 内存对齐
i32 32个bit,4个字节
sotre 写入内存
load 读取数据
call 调用函数
ret 返回
- IR 优化
LLVM的优化级别分别是 -O0 -O1 -O2 -O3 -Os
clang -Os -S -fobjc-arc -emit-llvm main.m -o main.ll
- bitCode
xcode7 以后开启bitcode会做进一步优化,生成.bc的中间代码,通过优化后的IR代码生成.bc代码
clang -emit-llvm -c main.ll -o main.bc
3.后端生成汇报代码
最终通过.bc或者.ll生成汇编代码
clang -S -fobjc-arc main.bc -o main.s
clang -S -fobjc-arc main.ll -o main.s
生成汇编代码也可以进行优化
clang -Os -S -fobjc-arc main.m -o main.s
4.生成目标文件
汇编器以汇编代码作为输入,将汇编代码最后输出目标文件
clang -fmodules -c main.s -o main.o
通过nm命令查看main.o的符号
(undefined) external _printf
0000000000000000 (__TEXT,__text) external _main
_printf 是一个undefined external的类型
undefined表示在当前文件暂时找不到符号_printf
external表示这个符号是外部可以访问的。
5.链接
链接器把编译产生的.o文件和(.dylb .a)文件,生成一个mac-o文件
clang main.o -o main
.dylb动态库:mac-o会在程序启动的时候加载动态库并进行符号绑定
.a静态库:静态库会在编译的时候与源文件一起生成到mac-o中
6.生产可执行文件
xcrun nm -nm main
(undefined) external _printf (from libSystem)
(undefined) external dyld_stub_binder (from libSystem)
0000000100000000 (__TEXT,__text) [referenced dynamically] external __mh_execute_header
0000000100003f50 (__TEXT,__text) external _main
0000000100008008 (__DATA,__data) non-external __dyld_private
虚拟内存和物理内存
在以前的计算机操作系统中没有虚拟内存的概念 , 任何应用都是从磁盘中直接加载到运行内存中时 , 都是完整加载和按序排列的 .
直接使用物理内存存在的问题
- 安全问题 : 应用直接加载到内存中 ,各个应用进程都是按顺序依次排列的。那么在进程1中通过地址偏移就可以访问到其他进程的内存 。存在安全隐患
- 效率问题 : 软件运行时需要占用的内存越来越多 , 但绝大部分情况下用户并不会用所有功能 , 造成很大的内存浪费 , 而后面打开的进程往往需要排队等待 .
虚拟内存
虚拟内存是从 0x000000 ~ 0xffffff 都可以访问的,但是实际上这个内存地址只是一个虚拟地址 , 而这个虚拟地址通过一张映射表映射后才可以获取到真实的物理地址 .
其中,
保留区:是系统预留的地址,比如在oc中的nil就是0x00
内涵区:系统用来进行内核处理操作的区域
每个虚拟内存又会划分为一个一个的页(页的大小在iOS中是16K,其他的是4K),每次加载都是以页为单位加载的。
可操作内存空间就是在这个虚拟地址,不会去操作其它进程的地址
内存数据的安全问题:ASLR技术
虚拟内存的起始地址与大小都是固定的,其数据的地址也是固定的,这会导致我们的数据非常容易被破解,为了解决这个问题,所以苹果为了解决这个问题,在iOS4.3开始引入了ASLR技术。
ASLR的概念:(Address Space Layout Randomization ) 地址空间配置随机加载,是一种针对缓冲区溢出的安全保护技术,通过对堆、栈、共享库映射等线性区布局的随机化,通过增加攻击者预测目的地址的难度,防止攻击者直接定位攻击代码位置,达到阻止溢出攻击的目的的一种技术。
其目的的通过利用随机方式配置数据地址空间,使某些敏感数据(例如APP登录注册、支付相关代码)配置到一个恶意程序无法事先获知的地址,令攻击者难以进行攻击。
由于ASLR的存在,导致可执行文件和动态链接库在虚拟内存中的加载地址每次启动都不固定,所以需要在编译时来修复镜像中的资源指针,来指向正确的地址。即正确的内存地址 = ASLR地址 + 偏移值